Clasificarea textelor în categorii tematice
Author: Mihai Nan
📰 Clasificarea textelor în categorii tematice
📘 Descrierea problemei
Se dorește construirea unui model de clasificare a textului care să atribuie fiecărei știri una dintre cele trei categorii tematice:
WELLNESSENTERTAINMENTPOLITICS
Modelul trebuie să învețe pe baza textelor de antrenament și să prezică eticheta (label) pentru textele noi.
Aceasta este o problemă de clasificare multi-clasă (multi-class classification).
🔹 Structura datelor
train.csv
Conține textul și categoria (etichetă) corespunzătoare.
Fiecare rând reprezintă o știre.
| SampleID | text | label |
|---|---|---|
| 139768 | Take a Presence Power Break (The New Coffee Break) As soon as you honor the present moment... | WELLNESS |
| 297 | Yolanda Hadid Returns To Social Media After 9-Month Break For Depression, Lyme Relapse... | ENTERTAINMENT |
| 2274 | Democrats Want Paid Sick Days, Breaks For Domestic Workers... | POLITICS |
test.csv
Conține doar textele pentru care trebuie făcută predicția.
| SampleID | text |
|---|---|
| 106057 | Taylor Swift Calls Out Sexist Critics Again |
📤 Submisia
Fișierul de ieșire trebuie să se numească submission.csv și să conțină două coloane:
SampleID— identificatorul unic al textuluilabel— categoria prezisă de model (WELLNESS,ENTERTAINMENTsauPOLITICS)
Exemplu:
| SampleID | label |
|---|---|
| 106057 | ENTERTAINMENT |
| 297 | ENTERTAINMENT |
| 2274 | POLITICS |
⚙️ Evaluarea
Performanța modelelor va fi măsurată folosind macro F1-score, o metrică echilibrată pentru clasificarea multi-clasă:
unde:
Scorul final se calculează ca media aritmetică a F1-score-urilor pentru toate clasele.
📊 Sursă
Datasetul este derivat dintr-o colecție de știri cu diverse teme (bunăstare, divertisment, politică), provenind de pe platforme media publice.
🗂️ Resurse utile
- Starter Kit complet – conține un schelet de la care puteți porni rezolvarea problemei