IRIS
ავტორი: ML de bază
🌸 Clasificarea tipului de iris
Descrierea problemei
Se dorește construirea unui model de clasificare care să determine specia unei flori pe baza caracteristicilor sale.
Fiecare eșantion este caracterizat prin 4 atribute numerice: lungimea și lățimea sepalei și petalei, iar eticheta (species) indică specia florii:
setosaversicolorvirginica
Acest tip de problemă aparține categoriei de clasificare multiclasa (multi-class classification).
Datasetul este derivat din colecția clasică Iris (UCI ML Repository).
🔹 Caracteristici (features)
sepal_lengthsepal_widthpetal_lengthpetal_width
📘 Structura fișierelor de intrare
train.csv
Conține toate cele 4 coloane de features plus coloana:
target– reprezintă specia florii (0=setosa,1=versicolor,2=virginica)
Exemplu:
sepal_length_(cm) sepal_width_(cm) petal_length_(cm) petal_width_(cm) target SampleID8 4.4 2.9 1.4 0.2 0 9106 4.9 2.5 4.5 1.7 2 10776 6.8 2.8 4.8 1.4 1 779 4.9 3.1 1.5 0.1 0 1089 5.5 2.5 4.0 1.3 1 90test.csv
Conține aceleași coloane fără target, dar include SampleID.
Exemplu:
sepal_length_(cm) sepal_width_(cm) petal_length_(cm) petal_width_(cm) SampleID38 4.4 3.0 1.3 0.2 39127 6.1 3.0 4.9 1.8 12857 4.9 2.4 3.3 1.0 5893 5.0 2.3 3.3 1.0 9442 4.4 3.2 1.3 0.2 43📤 Submisia
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel– specia prezisă (0, 1 sau 2)
Exemplu:
| SampleID | label |
|---|---|
| 101 | 1 |
| 102 | 2 |
| 103 | 0 |
⚙️ Evaluarea
Evaluarea modelelor se va face utilizând următoarea metrică:
- Macro F1-score
Această metrică este potrivită pentru clasificarea multiclasa, deoarece acordă pondere egală fiecărei clase, indiferent de numărul de exemple din fiecare.
Formula generală:
unde C este numărul de clase, iar F1_i este scorul F1 pentru clasa i.
Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.
📊 Sursă
Datasetul provine din colecția originală:
UCI Machine Learning Repository – Iris Data Set