Author: OJIA 2025
Compania de transport „SmartCargo România” are nevoie de soluții inteligente pentru a îmbunătăți estimările privind durata livrărilor. Tu ești noul specialist în data science al echipei, iar misiunea ta este să construiești modele precise care să prezică timpii de livrare între orașele din România.
Trebuie să analizezi date istorice privind cursele dintre orașe și să înțelegi cum factori precum distanța, ora din zi, vremea, traficul sau experiența șoferului influențează durata efectivă a livrării.
Scopul tău este să construiești un model de Machine Learning capabil să prezică timpul estimat pentru curse noi.
Fiecare rând din fișierele train_data.csv și test_data.csv reprezintă o livrare între două orașe din România.
Fiecare livrare conține următoarele detalii:
| Coloana | Descriere |
|---|---|
ID | Identificator unic al cursei |
City A | Orașul de plecare (ca text) |
City B | Orașul de destinație (ca text) |
Distance | Distanța reală între orașe (în kilometri) |
Time of Day | Momentul zilei exprimat în minute de la miezul nopții când pleacă o cursă (0 - 1439) |
Weather | Vremea în timpul cursei (Clear, Rain, Snow, Fog) |
Traffic | Nivelul traficului pe o scară numerică (0.0 - 1000.0), maximul înseamnă cel mai aglomerat |
Road Quality | Calitatea drumului pe o scară numerică (1 - 1000), maximul înseamnă cel mai calitativ |
Driver Experience | Nivelul de experiență al șoferului (1 - 40 ani) |
deliver_time | Doar în train_data.csv: timpul real de livrare în minute |
Managerul operațional ți-a dat următoarele două sarcini esențiale pentru îmbunătățirea operațiunilor „SmartCargo”.
Setul de Date pentru Predicție (test_data.csv) conține eșantioane cu aceleași caracteristici ca setul de antrenament, dar fără coloana predicted_time.
Modelul vostru va genera predicții pentru aceste eșantioane.
Fog) în setul de date de predicție. Găsește și raportează numărul acestor curse.Un fișier csv output.csv care să includă următoarele 3 coloane:
subtaskID - reprezintă numărul subtaskului (1, 2)datapointID - care se referă la coloana ID din test_data.csvanswer - răspunsul corespunzător datapointului pentru subtaskul respectivNotă: Pentru subtask-ul 1, la care se cere un singur răspuns pentru tot setul de date, afișați o singură linie a cărei datapointID să fie 1.
Trimiteți un singur csv care să conțină răspunsurile pentru toate subtask-urile pe care le-ați rezolvat. Pentru a vedea un exemplu, descărcați fișierul sample_output.csv (Nota: acesta, desi in formatul corect, obtine 0 puncte la submisie).
Scorurile pentru subtask-uri se vor calcula după cum urmează: