Skip to main content

Clasificarea tipului de vin

Author: Mihai Nan

Easy
Your best score: N/A
Problem Description

🧪 Clasificarea tipului de vin din datasetul Wine

Descrierea problemei

Se dorește construirea unui model de clasificare care să determine tipul unui vin pe baza caracteristicilor sale chimice.

Fiecare eșantion este caracterizat prin 13 atribute numerice care descriu proprietăți chimice și fizice ale vinului, iar eticheta (target) indică soiul de vin din care provine.

Acest tip de problemă aparține categoriei de clasificare multiclasa (multi-class classification).


🔹 Caracteristici (features)

  • alcohol
  • malic_acid
  • ash
  • alcalinity_of_ash
  • magnesium
  • total_phenols
  • flavanoids
  • nonflavanoid_phenols
  • proanthocyanins
  • color_intensity
  • hue
  • od280/od315_of_diluted_wines
  • proline

Datasetul provine din colecția originală UCI Machine Learning Repository:
https://archive.ics.uci.edu/ml/datasets/Wine


📘 Structura fișierelor de intrare

train.csv

Conține toate cele 13 coloane de features plus coloana:

  • target – reprezintă clasa vinului (soiul).
    Valorile posibile sunt 1, 2 și 3.

Exemplu:

   SampleID  alcohol  malic_acid  ...  od280/od315_of_diluted_wines  proline  target
0        37    13.28        1.64  ...                          2.78    880.0       0
1        31    13.73        1.50  ...                          2.71   1285.0       0
2        27    13.39        1.77  ...                          3.22   1195.0       0
3        13    13.75        1.73  ...                          2.90   1320.0       0
4       149    13.32        3.24  ...                          1.62    650.0       2

test.csv

Conține aceleași coloane fără target, dar include SampleID.

Exemplu:

   SampleID  alcohol  malic_acid  ...   hue  od280/od315_of_diluted_wines  proline
0        11    14.10        2.16  ...  1.25                          3.17   1510.0
1       135    12.51        1.24  ...  0.75                          1.51    650.0
2        29    13.87        1.90  ...  1.25                          3.40    915.0
3       122    11.56        2.05  ...  0.93                          3.69    465.0
4        63    13.67        1.25  ...  1.23                          2.46    630.0

📤 Submisia

Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:

  • SampleID
  • label – eticheta prezisă de model (1, 2 sau 3)

Exemplu:

SampleIDlabel
12
21
33

⚙️ Evaluarea

Evaluarea modelelor se va face utilizând următoarea metrică:

  • Macro F1-score

Această metrică este potrivită pentru clasificarea multiclasa, deoarece acordă pondere egală fiecărei clase, indiferent de numărul de exemple din fiecare.

Formula generală:

Macro F1 formula

unde C este numărul de clase, iar F1_i este scorul F1 pentru clasa i.

Scorul final se exprimă ca procent (0–100), rotunjit la două zecimale.


📊 Sursă

Datasetul provine din colecția originală:
UCI Machine Learning Repository – Wine Data Set

Submit Solution
Upload output file and optionally source code for evaluation.

Submission File

Source Code File (optional)

Sign in to upload a submission.