Autor: Mihai Nan
Se dorește construirea unui model de clasificare care să prezică dacă un pacient are diabet pe baza unor analize de sânge și date demografice.
Fiecare pacient este caracterizat prin 8 atribute numerice obținute din analize și măsurători clinice, iar eticheta (target) indică prezența diabetului (1 pentru pozitiv, 0 pentru negativ).
Acest tip de problemă aparține categoriei de clasificare binară (binary classification).
pregnancies – numărul de sarciniiglucose – nivelul de glucoză în sângeblood_pressure – tensiunea arterialăskin_thickness – grosimea pliului cutanatinsulin – nivelul de insulinăbmi – indicele de masă corporalădiabetes_pedigree_function – scorul genetic de riscage – vârsta pacientuluitrain.csvConține toate cele 8 coloane de features plus coloana:
target – indică prezența diabetului (0 sau 1)Exemplu:
| SampleID | pregnancies | glucose | blood_pressure | skin_thickness | insulin | bmi | diabetes_pedigree_function | age | target |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 6 | 148 | 72 | 35 | 0 | 33.6 | 0.627 | 50 | 1 |
| 2 | 1 | 85 | 66 | 29 | 0 | 26.6 | 0.351 | 31 | 0 |
test.csvConține aceleași coloane fără target, dar include SampleID.
Exemplu:
| SampleID | pregnancies | glucose | blood_pressure | skin_thickness | insulin | bmi | diabetes_pedigree_function | age |
|---|---|---|---|---|---|---|---|---|
| 1 | 0 | 137 | 40 | 35 | 168 | 43.1 | 2.288 | 33 |
| 2 | 5 | 116 | 74 | 0 | 0 | 25.6 | 0.201 | 30 |
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel – eticheta prezisă de model (0 sau 1)Exemplu:
| SampleID | label |
|---|---|
| 1 | 1 |
| 2 | 0 |
| 3 | 0 |
Evaluarea modelelor se va face utilizând următoarea metrică:
Această metrică este potrivită pentru clasificarea binară, deoarece acordă importanță egală corectitudinii predicțiilor pentru ambele clase.
Formula generală:
unde:
Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.
Datasetul provine din colecția originală:
Pima Indians Diabetes Database – Kaggle