Author: Mihai Nan
Compania națională de căi ferate dorește să prezică întârzierea unui tren (în minute, număr întreg) în momentul sosirii în stația finală. Pentru acest scop, vi se oferă un set de date cu detalii despre cursele din ultimul an.
Pentru fiecare cursă cunoaștem următoarele caracteristici:
| Nume | Tip | Descriere |
|---|---|---|
SampleID | int | Identificator unic al eșantionului |
departure_time | string (HH:MM) | Ora plecării trenului |
distance_km | float | Distanța totală a traseului |
avg_speed_kmh | float | Viteza medie reală de deplasare |
num_stops | int | Numărul de opriri intermediare |
weather | categorie | Condiții meteo: sunny, rain, snow, fog |
weekday | categorie | Ziua săptămânii |
special_events | 0/1 | Evenimente excepționale pe traseu |
num_cars | int | Numărul de vagoane |
ticket_price | float | Prețul biletului |
comfort_class | categorie | standard, intermediate, premium |
delay_minutes | int | Variabila țintă – întârzierea trenului în minute |
Informația delay_minutes este disponibilă doar în setul de antrenare (train.csv).
Trebuie să antrenați un model de capabil să prezică delay_minutes pe baza celorlalte caracteristici.
Trebuie să încărcați un fișier csv (submission.csv) cu următorul format:
SampleID,delay_minutes
0,12
1,3
2,15
unde:
SampleID trebuie să coincidă cu valorile din test.csvdelay_minutes este predicția modelului vostru, rotunjită la întregEvaluarea se va face folosind MAE (Mean Absolute Error):
Punctajul final este calculat pe baza scorului MAE obținut folosind următoarele reguli: