Autor: Mihai Nan
Se dorește construirea unui model de clasificare care să determine tipul unui vin pe baza caracteristicilor sale chimice.
Fiecare eșantion este caracterizat prin 13 atribute numerice care descriu proprietăți chimice și fizice ale vinului, iar eticheta (target) indică soiul de vin din care provine.
Acest tip de problemă aparține categoriei de clasificare multiclasa (multi-class classification).
alcoholmalic_acidashalcalinity_of_ashmagnesiumtotal_phenolsflavanoidsnonflavanoid_phenolsproanthocyaninscolor_intensityhueod280/od315_of_diluted_winesprolineDatasetul provine din colecția originală UCI Machine Learning Repository:
https://archive.ics.uci.edu/ml/datasets/Wine
train.csvConține toate cele 13 coloane de features plus coloana:
target – reprezintă clasa vinului (soiul).1, 2 și 3.Exemplu:
SampleID alcohol malic_acid ... od280/od315_of_diluted_wines proline target
0 37 13.28 1.64 ... 2.78 880.0 0
1 31 13.73 1.50 ... 2.71 1285.0 0
2 27 13.39 1.77 ... 3.22 1195.0 0
3 13 13.75 1.73 ... 2.90 1320.0 0
4 149 13.32 3.24 ... 1.62 650.0 2
test.csvConține aceleași coloane fără target, dar include SampleID.
Exemplu:
SampleID alcohol malic_acid ... hue od280/od315_of_diluted_wines proline
0 11 14.10 2.16 ... 1.25 3.17 1510.0
1 135 12.51 1.24 ... 0.75 1.51 650.0
2 29 13.87 1.90 ... 1.25 3.40 915.0
3 122 11.56 2.05 ... 0.93 3.69 465.0
4 63 13.67 1.25 ... 1.23 2.46 630.0
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel – eticheta prezisă de model (1, 2 sau 3)Exemplu:
| SampleID | label |
|---|---|
| 1 | 2 |
| 2 | 1 |
| 3 | 3 |
Evaluarea modelelor se va face utilizând următoarea metrică:
Această metrică este potrivită pentru clasificarea multiclasa, deoarece acordă pondere egală fiecărei clase, indiferent de numărul de exemple din fiecare.
Formula generală:
unde C este numărul de clase, iar F1_i este scorul F1 pentru clasa i.
Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.
Datasetul provine din colecția originală:
UCI Machine Learning Repository – Wine Data Set