Clasificarea speciilor de flori Iris
Author: ML de bază
🌸 Clasificarea tipului de iris
Descrierea problemei
Se dorește construirea unui model de clasificare care să determine specia unei flori pe baza caracteristicilor sale.
Fiecare eșantion este caracterizat prin 4 atribute numerice: lungimea și lățimea sepalei și petalei, iar eticheta (species) indică specia florii:
setosaversicolorvirginica
Acest tip de problemă aparține categoriei de clasificare multiclasa (multi-class classification).
Datasetul este derivat din colecția clasică Iris (UCI ML Repository).
🔹 Caracteristici (features)
sepal_lengthsepal_widthpetal_lengthpetal_width
📘 Structura fișierelor de intrare
train.csv
Conține toate cele 4 coloane de features plus coloana:
target– reprezintă specia florii (0=setosa,1=versicolor,2=virginica)
Exemplu:
sepal_length_(cm) sepal_width_(cm) petal_length_(cm) petal_width_(cm) target SampleID
8 4.4 2.9 1.4 0.2 0 9
106 4.9 2.5 4.5 1.7 2 107
76 6.8 2.8 4.8 1.4 1 77
9 4.9 3.1 1.5 0.1 0 10
89 5.5 2.5 4.0 1.3 1 90
test.csv
Conține aceleași coloane fără target, dar include SampleID.
Exemplu:
sepal_length_(cm) sepal_width_(cm) petal_length_(cm) petal_width_(cm) SampleID
38 4.4 3.0 1.3 0.2 39
127 6.1 3.0 4.9 1.8 128
57 4.9 2.4 3.3 1.0 58
93 5.0 2.3 3.3 1.0 94
42 4.4 3.2 1.3 0.2 43
📤 Submisia
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel– specia prezisă (0, 1 sau 2)
Exemplu:
| SampleID | label |
|---|---|
| 101 | 1 |
| 102 | 2 |
| 103 | 0 |
⚙️ Evaluarea
Evaluarea modelelor se va face utilizând următoarea metrică:
- Macro F1-score
Această metrică este potrivită pentru clasificarea multiclasa, deoarece acordă pondere egală fiecărei clase, indiferent de numărul de exemple din fiecare.
Formula generală:
unde C este numărul de clase, iar F1_i este scorul F1 pentru clasa i.
Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.
📊 Sursă
Datasetul provine din colecția originală:
UCI Machine Learning Repository – Iris Data Set