Skip to main content

Clasificarea textelor în categorii tematice

Author: Mihai Nan

Easy
Your best score: N/A
Problem Description

📰 Clasificarea textelor în categorii tematice

📘 Descrierea problemei

Se dorește construirea unui model de clasificare a textului care să atribuie fiecărei știri una dintre cele trei categorii tematice:

  • WELLNESS
  • ENTERTAINMENT
  • POLITICS

Modelul trebuie să învețe pe baza textelor de antrenament și să prezică eticheta (label) pentru textele noi.

Aceasta este o problemă de clasificare multi-clasă (multi-class classification).


🔹 Structura datelor

train.csv

Conține textul și categoria (etichetă) corespunzătoare.
Fiecare rând reprezintă o știre.

SampleIDtextlabel
139768Take a Presence Power Break (The New Coffee Break) As soon as you honor the present moment...WELLNESS
297Yolanda Hadid Returns To Social Media After 9-Month Break For Depression, Lyme Relapse...ENTERTAINMENT
2274Democrats Want Paid Sick Days, Breaks For Domestic Workers...POLITICS

test.csv

Conține doar textele pentru care trebuie făcută predicția.

SampleIDtext
106057Taylor Swift Calls Out Sexist Critics Again

📤 Submisia

Fișierul de ieșire trebuie să se numească submission.csv și să conțină două coloane:

  • SampleID — identificatorul unic al textului
  • label — categoria prezisă de model (WELLNESS, ENTERTAINMENT sau POLITICS)

Exemplu:

SampleIDlabel
106057ENTERTAINMENT
297ENTERTAINMENT
2274POLITICS

⚙️ Evaluarea

Performanța modelelor va fi măsurată folosind macro F1-score, o metrică echilibrată pentru clasificarea multi-clasă:

F1 formula

unde:

  • Precision formula
  • Recall formula

Scorul final se calculează ca media aritmetică a F1-score-urilor pentru toate clasele.


📊 Sursă

Datasetul este derivat dintr-o colecție de știri cu diverse teme (bunăstare, divertisment, politică), provenind de pe platforme media publice.


🗂️ Resurse utile

Submit Solution
Upload output file and optionally source code for evaluation.

Submission File

Source Code File (optional)

Sign in to upload a submission.