Diagnosticarea diabetului pe baza analizelor de sânge

Author: Mihai Nan

Easy

Your best score: N/A

Problem Description

🩺 Diagnosticarea diabetului pe baza analizelor de sânge

Descrierea problemei

Se dorește construirea unui model de clasificare care să prezică dacă un pacient are diabet pe baza unor analize de sânge și date demografice.

Fiecare pacient este caracterizat prin 8 atribute numerice obținute din analize și măsurători clinice, iar eticheta (target) indică prezența diabetului (1 pentru pozitiv, 0 pentru negativ).

Acest tip de problemă aparține categoriei de clasificare binară (binary classification).

🔹 Caracteristici (features)

pregnancies – numărul de sarcinii
glucose – nivelul de glucoză în sânge
blood_pressure – tensiunea arterială
skin_thickness – grosimea pliului cutanat
insulin – nivelul de insulină
bmi – indicele de masă corporală
diabetes_pedigree_function – scorul genetic de risc
age – vârsta pacientului

📘 Structura fișierelor de intrare

`train.csv`

Conține toate cele 8 coloane de features plus coloana:

target – indică prezența diabetului (0 sau 1)

Exemplu:

SampleID	pregnancies	glucose	blood_pressure	skin_thickness	insulin	bmi	diabetes_pedigree_function	age	target
1	6	148	72	35	0	33.6	0.627	50	1
2	1	85	66	29	0	26.6	0.351	31	0

`test.csv`

Conține aceleași coloane fără target, dar include SampleID.

Exemplu:

SampleID	pregnancies	glucose	blood_pressure	skin_thickness	insulin	bmi	diabetes_pedigree_function	age
1	0	137	40	35	168	43.1	2.288	33
2	5	116	74	0	0	25.6	0.201	30

📤 Submisia

Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:

SampleID
label – eticheta prezisă de model (0 sau 1)

Exemplu:

SampleID	label
1	1
2	0
3	0

⚙️ Evaluarea

Evaluarea modelelor se va face utilizând următoarea metrică:

F1-score binar (binary F1)

Această metrică este potrivită pentru clasificarea binară, deoarece acordă importanță egală corectitudinii predicțiilor pentru ambele clase.

Formula generală:

$F1 formula$

unde:

$Precision formula$
$Recall formula$

Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.

📊 Sursă

Datasetul provine din colecția originală:
Pima Indians Diabetes Database – Kaggle

Files

Submit Solution

Upload output file and optionally source code for evaluation.

Submission File

Click to upload or drag and drop

CSV, ZIP, etc. (MAX. 100MB)

Source Code File (optional)

Click to upload or drag and drop

Archive, notebook or code file