Autor: Mihai Nan
Ai la dispoziție un set de date care conține înregistrări simulate de la senzori industriali. Fiecare rând corespunde unui eșantion, iar datele includ patru caracteristici numerice:
Feature1: Măsurătoare a vibrațiilor pe axa X.Feature2: Măsurătoare a vibrațiilor pe axa Y.Feature3: Măsurătoare a variațiilor de temperatură.Feature4: Măsurătoare a variațiilor de presiune.Există patru stări diferite ale echipamentului (denumite 0, 1, 2, 3). Scopul este să atribui fiecărui eșantion un label (0, 1, 2 sau 3) astfel încât eșantioanele provenite din aceeași stare să fie grupate împreună. Ordinea numerelor nu contează, doar faptul că eșantioanele din aceeași categorie primesc același label.
train.csv: Conține eșantioanele pentru antrenare cu SampleID și cele 4 caracteristici.test.csv: Conține eșantioanele pentru test cu SampleID și cele 4 caracteristici. Trebuie să atribui label-uri acestor eșantioane.Folosește datele de antrenament pentru a înțelege tiparele și relațiile dintre caracteristici, apoi atribuie fiecărui eșantion din test un label între 0 și 3.
Predicțiile vor fi evaluate folosind Adjusted Rand Index (ARI), care măsoară cât de bine se potrivesc grupările tale cu stările reale (ascunse) ale echipamentelor.
Fișierul pe care trebuie să îl generezi după ce atribui label-uri testului trebuie să aibă formatul csv și trebuie să conțină doar două coloane:
SampleID,Label
1,0
2,1
3,0
...