Autor: Mihai Nan
Se dorește construirea unui model de regresie care să prezică scorul final la examen (Exam_Score) pe baza unor factori academici, sociali și personali ai elevilor.
Modelul primește un set de caracteristici (features) și trebuie să estimeze o valoare numerică continuă.
Fiecare instanță conține mai multe variabile, precum:
StudyHoursAttendanceParentalInvolvementHealthStatus... (alte coloane existente în dataset)train.csvConține toate caracteristicile + eticheta țintă.
Coloane obligatorii:
SampleIDExam_ScoreExemplu:
| SampleID | StudyHours | Attendance | ParentalInvolvement | ... | Exam_Score |
|---|---|---|---|---|---|
| 1 | 3.5 | High | Medium | ... | 78 |
| 2 | 1.2 | Low | Low | ... | 55 |
| 3 | 4.0 | High | High | ... | 92 |
test.csvAre aceeași structură ca train.csv, dar fără coloana Exam_Score, deoarece acesta trebuie prezis.
Exemplu:
| SampleID | StudyHours | Attendance | ParentalInvolvement | ... |
|---|---|---|---|---|
| 101 | 3.0 | High | Medium | ... |
| 102 | 0.7 | Low | Low | ... |
Fișierul submission.csv trebuie să conțină exact două coloane:
SampleIDExam_Score — predicția modeluluiExemplu:
| SampleID | Exam_Score |
|---|---|
| 101 | 81.2 |
| 102 | 49.7 |
Evaluarea modelelor se face cu două valori:
Apoi RMSE este convertit într-un scor 0–100 printr-o interpolare liniară:
Modelul ideal (RMSE = 0) obține scorul maxim de 100.
Datasetul este generat pe baza setului de date public de pe Kaggle: Student Performance Factors Dataset