Autor: ML de bază
Se dorește construirea unui model de clasificare care să determine specia unei flori pe baza caracteristicilor sale.
Fiecare eșantion este caracterizat prin 4 atribute numerice: lungimea și lățimea sepalei și petalei, iar eticheta (species) indică specia florii:
setosaversicolorvirginicaAcest tip de problemă aparține categoriei de clasificare multiclasa (multi-class classification).
Datasetul este derivat din colecția clasică Iris (UCI ML Repository).
sepal_lengthsepal_widthpetal_lengthpetal_widthtrain.csvConține toate cele 4 coloane de features plus coloana:
target – reprezintă specia florii (0=setosa, 1=versicolor, 2=virginica)Exemplu:
sepal_length_(cm) sepal_width_(cm) petal_length_(cm) petal_width_(cm) target SampleID
8 4.4 2.9 1.4 0.2 0 9
106 4.9 2.5 4.5 1.7 2 107
76 6.8 2.8 4.8 1.4 1 77
9 4.9 3.1 1.5 0.1 0 10
89 5.5 2.5 4.0 1.3 1 90
test.csvConține aceleași coloane fără target, dar include SampleID.
Exemplu:
sepal_length_(cm) sepal_width_(cm) petal_length_(cm) petal_width_(cm) SampleID
38 4.4 3.0 1.3 0.2 39
127 6.1 3.0 4.9 1.8 128
57 4.9 2.4 3.3 1.0 58
93 5.0 2.3 3.3 1.0 94
42 4.4 3.2 1.3 0.2 43
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel – specia prezisă (0, 1 sau 2)Exemplu:
| SampleID | label |
|---|---|
| 101 | 1 |
| 102 | 2 |
| 103 | 0 |
Evaluarea modelelor se va face utilizând următoarea metrică:
Această metrică este potrivită pentru clasificarea multiclasa, deoarece acordă pondere egală fiecărei clase, indiferent de numărul de exemple din fiecare.
Formula generală:
unde C este numărul de clase, iar F1_i este scorul F1 pentru clasa i.
Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.
Datasetul provine din colecția originală:
UCI Machine Learning Repository – Iris Data Set