Autor: Mihai Nan
Se dorește construirea unui model de clasificare a textului care să atribuie fiecărei știri una dintre cele trei categorii tematice:
WELLNESSENTERTAINMENTPOLITICSModelul trebuie să învețe pe baza textelor de antrenament și să prezică eticheta (label) pentru textele noi.
Aceasta este o problemă de clasificare multi-clasă (multi-class classification).
train.csvConține textul și categoria (etichetă) corespunzătoare.
Fiecare rând reprezintă o știre.
| SampleID | text | label |
|---|---|---|
| 139768 | Take a Presence Power Break (The New Coffee Break) As soon as you honor the present moment... | WELLNESS |
| 297 | Yolanda Hadid Returns To Social Media After 9-Month Break For Depression, Lyme Relapse... | ENTERTAINMENT |
| 2274 | Democrats Want Paid Sick Days, Breaks For Domestic Workers... | POLITICS |
test.csvConține doar textele pentru care trebuie făcută predicția.
| SampleID | text |
|---|---|
| 106057 | Taylor Swift Calls Out Sexist Critics Again |
Fișierul de ieșire trebuie să se numească submission.csv și să conțină două coloane:
SampleID — identificatorul unic al textuluilabel — categoria prezisă de model (WELLNESS, ENTERTAINMENT sau POLITICS)Exemplu:
| SampleID | label |
|---|---|
| 106057 | ENTERTAINMENT |
| 297 | ENTERTAINMENT |
| 2274 | POLITICS |
Performanța modelelor va fi măsurată folosind macro F1-score, o metrică echilibrată pentru clasificarea multi-clasă:
unde:
Scorul final se calculează ca media aritmetică a F1-score-urilor pentru toate clasele.
Datasetul este derivat dintr-o colecție de știri cu diverse teme (bunăstare, divertisment, politică), provenind de pe platforme media publice.