Diagnosticarea diabetului pe baza analizelor de sânge

Autore: Mihai Nan

Facile

Il tuo miglior punteggio: N/D

Descrizione del problema

🩺 Diagnosticarea diabetului pe baza analizelor de sânge

Descrierea problemei

Se dorește construirea unui model de clasificare care să prezică dacă un pacient are diabet pe baza unor analize de sânge și date demografice.

Fiecare pacient este caracterizat prin 8 atribute numerice obținute din analize și măsurători clinice, iar eticheta (target) indică prezența diabetului (1 pentru pozitiv, 0 pentru negativ).

Acest tip de problemă aparține categoriei de clasificare binară (binary classification).

🔹 Caracteristici (features)

pregnancies – numărul de sarcinii
glucose – nivelul de glucoză în sânge
blood_pressure – tensiunea arterială
skin_thickness – grosimea pliului cutanat
insulin – nivelul de insulină
bmi – indicele de masă corporală
diabetes_pedigree_function – scorul genetic de risc
age – vârsta pacientului

📘 Structura fișierelor de intrare

`train.csv`

Conține toate cele 8 coloane de features plus coloana:

target – indică prezența diabetului (0 sau 1)

Exemplu:

SampleID	pregnancies	glucose	blood_pressure	skin_thickness	insulin	bmi	diabetes_pedigree_function	age	target
1	6	148	72	35	0	33.6	0.627	50	1
2	1	85	66	29	0	26.6	0.351	31	0

`test.csv`

Conține aceleași coloane fără target, dar include SampleID.

Exemplu:

SampleID	pregnancies	glucose	blood_pressure	skin_thickness	insulin	bmi	diabetes_pedigree_function	age
1	0	137	40	35	168	43.1	2.288	33
2	5	116	74	0	0	25.6	0.201	30

📤 Submisia

Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:

SampleID
label – eticheta prezisă de model (0 sau 1)

Exemplu:

SampleID	label
1	1
2	0
3	0

⚙️ Evaluarea

Evaluarea modelelor se va face utilizând următoarea metrică:

F1-score binar (binary F1)

Această metrică este potrivită pentru clasificarea binară, deoarece acordă importanță egală corectitudinii predicțiilor pentru ambele clase.

Formula generală:

$F1 formula$

unde:

$Precision formula$
$Recall formula$

Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.

📊 Sursă

Datasetul provine din colecția originală:
Pima Indians Diabetes Database – Kaggle

File

Invia soluzione

Carica il file di output e opzionalmente il codice sorgente per la valutazione.

File di sottomissione

Clicca per caricare o trascina e rilascia

CSV, ZIP, ecc. (MAX. 100MB)

File codice sorgente (opzionale)

Clicca per caricare o trascina e rilascia

Archivio, notebook o file di codice

Accedi per caricare una sottomissione.