Skip to main content

Diagnosticarea diabetului pe baza analizelor de sânge

Author: Mihai Nan

Easy
Your best score: N/A
Problem Description

🩺 Diagnosticarea diabetului pe baza analizelor de sânge

Descrierea problemei

Se dorește construirea unui model de clasificare care să prezică dacă un pacient are diabet pe baza unor analize de sânge și date demografice.

Fiecare pacient este caracterizat prin 8 atribute numerice obținute din analize și măsurători clinice, iar eticheta (target) indică prezența diabetului (1 pentru pozitiv, 0 pentru negativ).

Acest tip de problemă aparține categoriei de clasificare binară (binary classification).


🔹 Caracteristici (features)

  • pregnancies – numărul de sarcinii
  • glucose – nivelul de glucoză în sânge
  • blood_pressure – tensiunea arterială
  • skin_thickness – grosimea pliului cutanat
  • insulin – nivelul de insulină
  • bmi – indicele de masă corporală
  • diabetes_pedigree_function – scorul genetic de risc
  • age – vârsta pacientului

📘 Structura fișierelor de intrare

train.csv

Conține toate cele 8 coloane de features plus coloana:

  • target – indică prezența diabetului (0 sau 1)

Exemplu:

SampleIDpregnanciesglucoseblood_pressureskin_thicknessinsulinbmidiabetes_pedigree_functionagetarget
161487235033.60.627501
21856629026.60.351310

test.csv

Conține aceleași coloane fără target, dar include SampleID.

Exemplu:

SampleIDpregnanciesglucoseblood_pressureskin_thicknessinsulinbmidiabetes_pedigree_functionage
10137403516843.12.28833
25116740025.60.20130

📤 Submisia

Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:

  • SampleID
  • label – eticheta prezisă de model (0 sau 1)

Exemplu:

SampleIDlabel
11
20
30

⚙️ Evaluarea

Evaluarea modelelor se va face utilizând următoarea metrică:

  • F1-score binar (binary F1)

Această metrică este potrivită pentru clasificarea binară, deoarece acordă importanță egală corectitudinii predicțiilor pentru ambele clase.

Formula generală:

F1 formula

unde:

  • Precision formula
  • Recall formula

Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.


📊 Sursă

Datasetul provine din colecția originală:
Pima Indians Diabetes Database – Kaggle

Submit Solution
Upload output file and optionally source code for evaluation.

Submission File

Source Code File (optional)

Sign in to upload a submission.