Chirper och Melon Husks imperium (Y) - Svårighetsgrad: ME... | MLCompete

Chirper și imperiul lui Melon Husk (Y)

Författare: Mihnea-Teodor Stoica

Medel

Din bästa poäng: Ej tillgänglig

Problembeskrivning

Chirper și imperiul lui Melon Husk (Y)

Context

Într-o lume paralelă a rețelelor sociale, Chirper este cea mai populară platformă de micro-mesaje.
Recent, platforma a fost cumpărată de celebrul (și ușor excentricul) Melon Husk, care a decis să o rebranduiască sub numele de Y.

Pentru a face Y mai curată și mai prietenoasă, Melon Husk cere echipei tale de data science să construiască un model de clasificare care să detecteze automat chirp-uri problematice (spam, conținut irelevant sau zgomot), astfel încât acestea să poată fi filtrate din feed.

Ai primit un set de chirp-uri istorice și trebuie să construiești un model
care să poată clasifica chirp-uri noi.

Ți-au fost puse la dispoziție două fișiere:

train.csv – chirp-uri istorice cu eticheta label (problematic = 1 / normal = 0)
test.csv – chirp-uri noi, fără etichetă

Scopul principal: predicția probabilității ca un chirp să fie problematic
(valoare între 0 și 1, unde 0 = chirp sigur normal, 1 = chirp sigur problematic).

📊 Setul de date

Fiecare rând reprezintă un chirp publicat pe Chirper Y, cu următoarele atribute:

id – identificator unic al chirp-ului
chirp – textul chirp-ului
label – doar în train.csv, 1 (problematic) / 0 (normal)

Scopul final: prezice label pentru rândurile din test.csv.

📝 Task-uri

Primele două subtask-uri verifică analiza simplă a chirp-urilor.
Ultimul subtask evaluează performanța modelului de clasificare.

Subtask 1 (10 puncte)

Determină lungimea fiecărui chirp ca număr de caractere.

Afișează pentru acest subtask un număr întreg.

Subtask 2 (15 puncte)

Numără câte apariții ale caracterului # există în chirp
(indicator important pentru hashtag-uri excesive, iubite de spammeri 😄).

Subtask 3 (75 puncte)

Construiți un model de clasificare care prezice probabilitatea ca un chirp
să fie problematic (p ∈ [0,1]) pentru fiecare rând din test.

Evaluarea se face folosind ROC curve și AUC (Area Under the ROC Curve).

🧮 Evaluare

AUC ≥ 0.95 → 75 puncte
AUC ≤ 0.80 → 0 puncte
Intervalul dintre ele: punctaj proporțional

Subtasks 1–2 se evaluează exact (prin comparare).

📄 Formatul fișierului de submisie

Fișierul submission.csv trebuie să conțină câte 3 linii pentru fiecare rând din test,
corespunzătoare celor 3 subtasks.

Structură:

1subtaskID,datapointID,answer

unde:

subtaskID – 1, 2 sau 3
datapointID – valoarea id
answer – depinde de task:
- Subtask 1: lungimea chirp-ului (număr întreg)
- Subtask 2: numărul de apariții ale caracterului # (număr întreg)
- Subtask 3: probabilitatea ca chirp-ul să fie problematic (număr real 0–1)

Exemplu pentru `id = 25758`:

Python
1subtaskID,datapointID,answer21,25758,2132,25758,043,25758,0.083

📊 Metrica de evaluare: ROC AUC 📈

Pentru Subtask 3, evaluarea se face folosind ROC AUC (Area Under the ROC Curve).
Aceasta este o măsură unică care sintetizează performanța unui clasificator
pentru toate pragurile posibile de decizie.

Cum se calculează ROC AUC?

Se trasează curba ROC, care reprezintă:
- TPR (True Positive Rate) – proporția de chirp-uri problematice detectate corect
- FPR (False Positive Rate) – proporția de chirp-uri normale marcate greșit ca problematice
Aria de sub curbă (AUC) se calculează folosind regula trapezelor:
- Curba este împărțită în trapeze folosind liniile verticale la valorile FPR
  și liniile orizontale la valorile TPR
- Se adună ariile trapezelor pentru a obține valoarea finală a AUC
Interpretarea scorului:
- ROC AUC = 1 🏆 → clasificator perfect, Y devine visul lui Melon Husk
- ROC AUC = 0.5 🎲 → clasificator aleatoriu, la fel de util ca un poll pe Chirper
- 0.5 < ROC AUC < 1 📈 → cât de bine separă modelul chirp-urile normale de cele problematice

Filer

Lämna in lösning

Ladda upp utdatafil och valfritt källkod för utvärdering.

Inlämningsfil

Klicka för att ladda upp eller dra och släpp

CSV, ZIP, etc. (MAX. 100MB)

Källkodsfil (valfritt)

Klicka för att ladda upp eller dra och släpp

Arkiv, notebook eller kodfil

Logga in för att ladda upp en inlämning.

Chirper și imperiul lui Melon Husk (Y)

Context

📊 Setul de date

📝 Task-uri

Subtask 1 (10 puncte)

Subtask 2 (15 puncte)

Subtask 3 (75 puncte)

🧮 Evaluare

📄 Formatul fișierului de submisie

Exemplu pentru id = 25758:

📊 Metrica de evaluare: ROC AUC 📈

Cum se calculează ROC AUC?

Inlämningsfil

Källkodsfil (valfritt)

Exemplu pentru `id = 25758`: