Författare: Mihnea-Teodor Stoica
Într-o lume paralelă a rețelelor sociale, Chirper este cea mai populară platformă de micro-mesaje.
Recent, platforma a fost cumpărată de celebrul (și ușor excentricul) Melon Husk, care a decis să o rebranduiască sub numele de Y.
Pentru a face Y mai curată și mai prietenoasă, Melon Husk cere echipei tale de data science să construiască un model de clasificare care să detecteze automat chirp-uri problematice (spam, conținut irelevant sau zgomot), astfel încât acestea să poată fi filtrate din feed.
Ai primit un set de chirp-uri istorice și trebuie să construiești un model
care să poată clasifica chirp-uri noi.
Ți-au fost puse la dispoziție două fișiere:
label (problematic = 1 / normal = 0)Scopul principal: predicția probabilității ca un chirp să fie problematic
(valoare între 0 și 1, unde 0 = chirp sigur normal, 1 = chirp sigur problematic).
Fiecare rând reprezintă un chirp publicat pe Chirper Y, cu următoarele atribute:
id – identificator unic al chirp-uluichirp – textul chirp-uluilabel – doar în train.csv, 1 (problematic) / 0 (normal)Scopul final: prezice label pentru rândurile din test.csv.
Primele două subtask-uri verifică analiza simplă a chirp-urilor.
Ultimul subtask evaluează performanța modelului de clasificare.
Determină lungimea fiecărui chirp ca număr de caractere.
Afișează pentru acest subtask un număr întreg.
Numără câte apariții ale caracterului # există în chirp
(indicator important pentru hashtag-uri excesive, iubite de spammeri 😄).
Construiți un model de clasificare care prezice probabilitatea ca un chirp
să fie problematic (p ∈ [0,1]) pentru fiecare rând din test.
Evaluarea se face folosind ROC curve și AUC (Area Under the ROC Curve).
Subtasks 1–2 se evaluează exact (prin comparare).
Fișierul submission.csv trebuie să conțină câte 3 linii pentru fiecare rând din test,
corespunzătoare celor 3 subtasks.
Structură:
subtaskID,datapointID,answer
unde:
unde:
id# (număr întreg)id = 25758:subtaskID,datapointID,answer
1,25758,21
2,25758,0
3,25758,0.083
Pentru Subtask 3, evaluarea se face folosind ROC AUC (Area Under the ROC Curve).
Aceasta este o măsură unică care sintetizează performanța unui clasificator
pentru toate pragurile posibile de decizie.
Se trasează curba ROC, care reprezintă:
Aria de sub curbă (AUC) se calculează folosind regula trapezelor:
Interpretarea scorului: