Autor: Mihai Nan
Se dorește construirea unui model de regresie care să prezică producția zilnică de energie electrică (kWh) a unui panou solar, pe baza condițiilor meteorologice și a caracteristicilor instalației.
Fiecare eșantion reprezintă o zi de producție și este caracterizat prin mai multe atribute numerice, cum ar fi intensitatea luminii, temperatura aerului, viteza vântului și altele.
Eticheta țintă (energy_output) reprezintă energia totală generată în acea zi.
Această problemă aparține categoriei de regresie univariată.
solar_irradiance – radiația solară medie (W/m²)temperature – temperatura medie a aerului (°C)humidity – umiditatea relativă (%)wind_speed – viteza vântului medie (m/s)cloud_cover – acoperirea medie a norilor (%)panel_angle – unghiul de înclinare al panoului (°)panel_efficiency – eficiența panoului (%)train.csvConține toate coloanele de features plus coloana energy_output, care reprezintă valoarea țintă.
Exemplu:
| SampleID | solar_irradiance | temperature | humidity | wind_speed | cloud_cover | panel_angle | panel_efficiency | energy_output |
|---|---|---|---|---|---|---|---|---|
| 1 | 750.5 | 25.2 | 40.0 | 3.5 | 10 | 30 | 18.5 | 42.3 |
| 2 | 610.0 | 22.1 | 55.0 | 2.0 | 50 | 25 | 17.0 | 28.7 |
test.csvConține aceleași coloane ca train.csv, dar fără energy_output, și include SampleID.
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDenergy_output – valoarea prezisă de model (float, cu 2 zecimale)Exemplu:
| SampleID | energy_output |
|---|---|
| 1 | 41.75 |
| 2 | 29.10 |
| 3 | 35.80 |
Evaluarea modelelor se va face utilizând Root Mean Squared Error (RMSE):
unde N este numarul de exemple din setul de test, y_i este valoarea reala si y^_i este valoarea prezisa de model.
Scorul final se va scala între 0 și 100, astfel încât RMSE mic să conducă la scor mare.
Datele folosite pentru această problemă sunt generate sintetic.