Autor: Mihai Nan
Pentru această problemă trebuie să implementați un model de regresie capabil să prezică scorul obținut la examen (Exam_Score) utilizând un set de date disponibil. Setul de date este organizat într-un fișier CSV, iar performanța modelului se va evalua pe baza Mean Absolute Error (MAE).
Setul de date conține următoarele coloane:
Calculați media valorilor din coloana Hours_Studied pe setul de antrenare. Pentru fiecare student din test, determinați modulul diferenței dintre Hours_Studied și media calculată.
Determinați pentru fiecare student din test dacă acesta doarme puțin (<7 ore). Rezultatul va fi True sau False.
Numărați câți studenți din setul de antrenare au avut un scor anterior (Previous_Scores) mai mare sau egal cu al fiecărui student din test.
Determinați numărul de studenți din antrenare cu același nivel de motivație (Motivation_Level) ca fiecare student din test.
Construiți un model de regresie pentru a prezice Exam_Score pe baza caracteristicilor furnizate. Modelul trebuie să generalizeze pe date noi și va fi evaluat cu MAE.
Exam_Scoretrain_data.csv și evaluat pe test_data.csvFișierul de submisie trebuie să fie un CSV cu exact trei coloane:
| Coloană | Tip | Descriere |
|---|---|---|
subtaskID | integer | Reprezintă ID-ul subtask-ului (de la 1 la 5). |
datapointID | integer/string | Reprezintă identificatorul unic al rândului din setul de test (ID). |
answer | float / int / bool | Răspunsul pentru subtask-ul respectiv. Tipul valorii depinde de subtask: • Subtask 1: float • Subtask 2: boolean • Subtask 3: integer • Subtask 4: integer • Subtask 5: float (predicții model) |
| subtaskID | datapointID | answer |
|---|---|---|
| 1 | 101 | 12.5 |
| 2 | 101 | True |
| 3 | 101 | 7 |
| 4 | 101 | 3 |
| 5 | 101 | 85.3 |
Important: Fiecare rând din CSV reprezintă răspunsul pentru un singur subtask și un singur datapoint. Pentru fiecare
datapointIDtrebuie să existe câte un rând pentru fiecare subtask.
Trimiterea unui sample_output generează 6 puncte.