Diagnosticarea diabetului pe baza analizelor de sânge
Author: Mihai Nan
🩺 Diagnosticarea diabetului pe baza analizelor de sânge
Descrierea problemei
Se dorește construirea unui model de clasificare care să prezică dacă un pacient are diabet pe baza unor analize de sânge și date demografice.
Fiecare pacient este caracterizat prin 8 atribute numerice obținute din analize și măsurători clinice, iar eticheta (target) indică prezența diabetului (1 pentru pozitiv, 0 pentru negativ).
Acest tip de problemă aparține categoriei de clasificare binară (binary classification).
🔹 Caracteristici (features)
pregnancies– numărul de sarciniiglucose– nivelul de glucoză în sângeblood_pressure– tensiunea arterialăskin_thickness– grosimea pliului cutanatinsulin– nivelul de insulinăbmi– indicele de masă corporalădiabetes_pedigree_function– scorul genetic de riscage– vârsta pacientului
📘 Structura fișierelor de intrare
train.csv
Conține toate cele 8 coloane de features plus coloana:
target– indică prezența diabetului (0sau1)
Exemplu:
| SampleID | pregnancies | glucose | blood_pressure | skin_thickness | insulin | bmi | diabetes_pedigree_function | age | target |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 6 | 148 | 72 | 35 | 0 | 33.6 | 0.627 | 50 | 1 |
| 2 | 1 | 85 | 66 | 29 | 0 | 26.6 | 0.351 | 31 | 0 |
test.csv
Conține aceleași coloane fără target, dar include SampleID.
Exemplu:
| SampleID | pregnancies | glucose | blood_pressure | skin_thickness | insulin | bmi | diabetes_pedigree_function | age |
|---|---|---|---|---|---|---|---|---|
| 1 | 0 | 137 | 40 | 35 | 168 | 43.1 | 2.288 | 33 |
| 2 | 5 | 116 | 74 | 0 | 0 | 25.6 | 0.201 | 30 |
📤 Submisia
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel– eticheta prezisă de model (0sau1)
Exemplu:
| SampleID | label |
|---|---|
| 1 | 1 |
| 2 | 0 |
| 3 | 0 |
⚙️ Evaluarea
Evaluarea modelelor se va face utilizând următoarea metrică:
- F1-score binar (binary F1)
Această metrică este potrivită pentru clasificarea binară, deoarece acordă importanță egală corectitudinii predicțiilor pentru ambele clase.
Formula generală:
unde:
Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.
📊 Sursă
Datasetul provine din colecția originală:
Pima Indians Diabetes Database – Kaggle