Predictia temperaturii medii zilnice
Author: Mihai Nan
🌡️ Predicția temperaturii medii zilnice
Descrierea problemei
Se dorește construirea unui model de regresie care să prezică temperatura medie zilnică într-un anumit oraș, pe baza unor caracteristici meteorologice.
Fiecare înregistrare este caracterizată prin următoarele atribute:
humidity– umiditatea relativă (%)wind_speed– viteza vântului (km/h)pressure– presiunea atmosferică (hPa)rainfall– cantitatea de precipitații (mm)cloud_cover– acoperirea norilor (%)solar_radiation– radiația solară (W/m²)day_of_year– ziua anului (1–365)
Eticheta (coloana țintă) este:
temperature– temperatura medie zilnică (°C)
Această problemă aparține categoriei de regresie continuă.
📘 Structura fișierelor de intrare
train.csv
Conține toate coloanele de features plus coloana țintă temperature.
Valorile sunt numerice continue.
| SampleID | humidity | wind_speed | pressure | rainfall | cloud_cover | solar_radiation | day_of_year | temperature |
|---|---|---|---|---|---|---|---|---|
| 1 | 70.0 | 15.0 | 1015.0 | 2.0 | 50 | 500.0 | 1 | 22.5 |
| 2 | 65.0 | 10.0 | 1018.0 | 0.0 | 20 | 650.0 | 2 | 24.0 |
| 3 | 80.0 | 5.0 | 1012.0 | 5.0 | 80 | 200.0 | 3 | 19.0 |
test.csv
Conține aceleași coloane fără temperature, dar include SampleID.
| SampleID | humidity | wind_speed | pressure | rainfall | cloud_cover | solar_radiation | day_of_year |
|---|---|---|---|---|---|---|---|
| 101 | 75.0 | 12.0 | 1016.0 | 1.0 | 60 | 550.0 | 101 |
| 102 | 60.0 | 8.0 | 1019.0 | 0.0 | 10 | 700.0 | 102 |
📤 Submisia
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDtemperature– valoarea prezisă de model (float, °C)
| SampleID | temperature |
|---|---|
| 101 | 23.5 |
| 102 | 25.1 |
| 103 | 21.8 |
⚙️ Evaluarea
Evaluarea modelelor se va face utilizând Root Mean Squared Error (RMSE):
unde:
Neste numărul de exemple din setul de testy_ieste valoarea reală a temperaturiiŷ_ieste valoarea prezisă de model
RMSE oferă o măsură a deviației medii pătratice între predicții și valorile reale, exprimată în aceeași unitate ca și ținta (°C).
Un scor RMSE mai mic indică un model mai precis.
📊 Sursă
Datasetul este un set sintetic inspirat din date meteorologice reale.