Fairplay - Dificultate: MEDIUM

Descrierea problemei

FairPlay și meciurile cu risc ridicat

Context

Într-un univers paralel, FairPlay este departamentul responsabil cu monitorizarea echipelor și jucătorilor în timpul meciurilor.

De-a lungul anilor, FairPlay a observat că anumite meciuri tind să devină haotice mai des atunci când apar:

faulturi,
multe cartonașe,
decizii controversate și scandaluri.

Pentru a evita scandaluri cat mai mult, FairPlay îți cere să construiești un model care clasifică meciurile după potențialul de haos.

Ai la dispoziție date din trecut despre meciuri și trebuie să construiești un model de clasificare care să poată prezice daca meciul va deveni haotic.

Setul de date

Ți-au fost puse la dispoziție două fișiere:

train.csv - meciuri din trecut, cu eticheta chaos_label
test.csv - meciuri noi, fără etichetă

Fiecare rând reprezintă un meci și conține următoarele coloane:

MatchID - identificator unic al meciului
Season - sezonul competițional
MatchWeek - etapa
HomeTeam - echipa gazdă
AwayTeam - echipa oaspete
Goals - numărul total de goluri
Shots - numărul total de șuturi
Corners - numărul total de cornere
YellowCards - numărul de cartonașe galbene
RedCards - numărul de cartonașe roșii
TeamStyles - listă de stiluri de joc asociate meciului (ex: ["AggressiveTackler", "HighPressure"])
chaos_label - doar în train.csv,
- 1 = meci haotic / cu scandal
- 0 = meci controlat

Scopul final:

Prezice dacă un meci din test.csv este haotic (valori binare - 0 sau 1).

Task-uri

Primele două subtask-uri verifică înțelegerea și preprocesarea datelor.

Ultimul subtask evaluează performanța modelului de clasificare.

Subtask 1 (10 puncte)

Calculați numărul de meciuri jucate de echipa "Chelsea", atât în deplasare, cât și acasă, pe baza setului de testare.

Afișați un singur număr întreg.

Subtask 2 (15 puncte)

Pornind de la coloana TeamStyles, calculați un scor numeric numit StyleAggressionScore, definit ca:

1StyleAggressionScore = (numărul de stiluri agresive) / (numărul total de stiluri)

Stilurile considerate agresive sunt:

AggressiveTackler
RiskTaker
HighPressure
ChaosInducer

Rezultatul trebuie să fie un număr real între 0 și 1.

Subtask 3 (75 puncte)

Construiți un model de clasificare care să prezică dacă un meci este haotic (chaos_label = 1) sau controlat (chaos_label = 0).

Pentru fiecare rând din test.csv, modelul trebuie să returneze o predicție binară:

0 → meci controlat
1 → meci haotic

Modelul poate folosi orice feature disponibil în setul de date, inclusiv feature-uri artificiale construite în cadrul subtask-urilor anterioare.

Evaluare

Pentru Subtask 3, evaluarea se face folosind scorul F1 macro.

Scorul F1 macro se calculează astfel:

se calculează F1-score separat pentru fiecare clasă (0 și 1)
se face media aritmetică a celor două valori

Această metrică tratează ambele clase în mod egal și penalizează modelele care prezic corect doar clasa majoritară.

Praguri de evaluare:

F1 macro ≥ 0.95 → 75 puncte
F1 macro ≤ 0.80 → 0 puncte

Valorile intermediare primesc punctaj proportional.

Formatul fișierului de submisie

Fișierul submission.csv trebuie să conțină o linie pentru primul subtask, și câte 2 linii pentru fiecare rând din test, corespunzătoare celorlalte 2 subtaskuri.

Structură:

subtaskID,datapointID,answer

unde:

subtaskID - 1, 2 sau 3
datapointID - valoarea id (sau 1 pentru primul subtask)
answer - depinde de task:
- Subtask 1: numărul de meciuri (număr întreg)
- Subtask 2: scorul descris (aproximat la 2 zecimale)
- Subtask 3: predicție binară (0/1)

Exemplu pentru id = 25758:

subtaskID	datapointID	answer
1	1	2000
2	25758	0
3	25758	0

Sursă dataset: https://www.kaggle.com/datasets/ajaxianazarenka/premier-league?select=PremierLeague.csv

Fișiere

Descarcă fișierele problemei

Trimite soluția

Încarcă manual fișierul de rezultat. Poți atașa și codul sursă.Maximum 100 MB în total

Fișier trimitere

Apasă pentru a încărca sau trage și plasează

CSV, ZIP, etc. (MAX. 100MB)

Fișier cod sursă (opțional)

Apasă pentru a încărca sau trage și plasează

Arhivă, notebook sau fișier de cod

Autentifică-te pentru a încărca o trimitere.

Lucrează și trimite din Google Colab

Deschide notebookul pregătit pentru această problemă. Prima celulă descarcă datele, iar când ai terminat poți trimite soluția la evaluare direct din notebook.

Trimiterile din Colab folosesc același evaluator și aceleași limite. Rezultatul apare în „Trimiterile mele”.

MLCompete poate accesa doar notebookul pe care îl creează în Drive, nu și celelalte fișiere.

Nu se deschide? Folosește un cod temporar

Generează codul aici, deschide notebookul public și introdu-l când îl cere prima celulă.

Autentifică-te mai întâi pe MLCompete pentru a genera un cod temporar.

Deschide notebook-ul public în Colab

Lipește codul doar atunci când îl cere notebook-ul. Nu îl distribui nimănui.