Clasificarea textelor în categorii tematice

Author: Mihai Nan

Easy

Your best score: N/A

Problem Description

📰 Clasificarea textelor în categorii tematice

Se dorește construirea unui model de clasificare a textului care să atribuie fiecărei știri una dintre cele trei categorii tematice:

Modelul trebuie să învețe pe baza textelor de antrenament și să prezică eticheta (label) pentru textele noi.

Aceasta este o problemă de clasificare multi-clasă (multi-class classification).

Conține textul și categoria (etichetă) corespunzătoare.
Fiecare rând reprezintă o știre.

SampleID	text	label
139768	Take a Presence Power Break (The New Coffee Break) As soon as you honor the present moment...	WELLNESS
297	Yolanda Hadid Returns To Social Media After 9-Month Break For Depression, Lyme Relapse...	ENTERTAINMENT
2274	Democrats Want Paid Sick Days, Breaks For Domestic Workers...	POLITICS

Conține doar textele pentru care trebuie făcută predicția.

SampleID	text
106057	Taylor Swift Calls Out Sexist Critics Again

Fișierul de ieșire trebuie să se numească submission.csv și să conțină două coloane:

SampleID — identificatorul unic al textului
label — categoria prezisă de model (WELLNESS, ENTERTAINMENT sau POLITICS)

Exemplu:

Performanța modelelor va fi măsurată folosind macro F1-score, o metrică echilibrată pentru clasificarea multi-clasă:

$F1 formula$

unde:

Scorul final se calculează ca media aritmetică a F1-score-urilor pentru toate clasele.

Datasetul este derivat dintr-o colecție de știri cu diverse teme (bunăstare, divertisment, politică), provenind de pe platforme media publice.

Starter Kit complet – conține un schelet de la care puteți porni rezolvarea problemei

Files

Submit Solution

Upload output file and optionally source code for evaluation.

Click to upload or drag and drop

CSV, ZIP, etc. (MAX. 100MB)

Click to upload or drag and drop

Archive, notebook or code file