Clasificarea tipului de vin
Author: Mihai Nan
🧪 Clasificarea tipului de vin din datasetul Wine
Descrierea problemei
Se dorește construirea unui model de clasificare care să determine tipul unui vin pe baza caracteristicilor sale chimice.
Fiecare eșantion este caracterizat prin 13 atribute numerice care descriu proprietăți chimice și fizice ale vinului, iar eticheta (target) indică soiul de vin din care provine.
Acest tip de problemă aparține categoriei de clasificare multiclasa (multi-class classification).
🔹 Caracteristici (features)
alcoholmalic_acidashalcalinity_of_ashmagnesiumtotal_phenolsflavanoidsnonflavanoid_phenolsproanthocyaninscolor_intensityhueod280/od315_of_diluted_winesproline
Datasetul provine din colecția originală UCI Machine Learning Repository:
https://archive.ics.uci.edu/ml/datasets/Wine
📘 Structura fișierelor de intrare
train.csv
Conține toate cele 13 coloane de features plus coloana:
target– reprezintă clasa vinului (soiul).
Valorile posibile sunt1,2și3.
Exemplu:
SampleID alcohol malic_acid ... od280/od315_of_diluted_wines proline target
0 37 13.28 1.64 ... 2.78 880.0 0
1 31 13.73 1.50 ... 2.71 1285.0 0
2 27 13.39 1.77 ... 3.22 1195.0 0
3 13 13.75 1.73 ... 2.90 1320.0 0
4 149 13.32 3.24 ... 1.62 650.0 2
test.csv
Conține aceleași coloane fără target, dar include SampleID.
Exemplu:
SampleID alcohol malic_acid ... hue od280/od315_of_diluted_wines proline
0 11 14.10 2.16 ... 1.25 3.17 1510.0
1 135 12.51 1.24 ... 0.75 1.51 650.0
2 29 13.87 1.90 ... 1.25 3.40 915.0
3 122 11.56 2.05 ... 0.93 3.69 465.0
4 63 13.67 1.25 ... 1.23 2.46 630.0
📤 Submisia
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel– eticheta prezisă de model (1, 2 sau 3)
Exemplu:
| SampleID | label |
|---|---|
| 1 | 2 |
| 2 | 1 |
| 3 | 3 |
⚙️ Evaluarea
Evaluarea modelelor se va face utilizând următoarea metrică:
- Macro F1-score
Această metrică este potrivită pentru clasificarea multiclasa, deoarece acordă pondere egală fiecărei clase, indiferent de numărul de exemple din fiecare.
Formula generală:
unde C este numărul de clase, iar F1_i este scorul F1 pentru clasa i.
Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.
📊 Sursă
Datasetul provine din colecția originală:
UCI Machine Learning Repository – Wine Data Set