Clasificarea emoțiilor pe baza textului
Author: Mihai Nan
📝 Clasificarea emoțiilor pe baza textului
📘 Descrierea problemei
Se dorește construirea unui model de clasificare care să prezică emoția principală asociată unui text.
Fiecare exemplu este caracterizat printr-un text scurt și eticheta (label) reprezintă emoția corespunzătoare (ex: joy, anger, sadness, etc.).
Această problemă aparține categoriei de clasificare multi-clasă.
🔹 Caracteristici (features)
text– conținutul textual al mesajului sau articolului
Eticheta țintă este:
label– emoția asociată textului (string)
📘 Structura fișierelor de intrare
train.csv
Conține coloanele:
SampleIDtextlabel
Exemplu:
| SampleID | text | label |
|---|---|---|
| 1 | "I am so happy today!" | joy |
| 2 | "I feel really angry about this situation." | anger |
| 3 | "Feeling a bit sad after watching that movie." | sadness |
test.csv
Conține aceleași coloane fără label, dar include SampleID.
Exemplu:
| SampleID | text |
|---|---|
| 101 | "What a wonderful surprise!" |
| 102 | "I can't believe this happened." |
📤 Submisia
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel– eticheta prezisă de model
Exemplu:
| SampleID | label |
|---|---|
| 101 | joy |
| 102 | surprise |
⚙️ Evaluarea
Evaluarea modelelor se va face utilizând Macro F1-score:
unde:
= numărul de clase
Scorul final va fi transformat în intervalul 0–100, astfel încât un F1 mare să conducă la scor mare. Pentru scorul maxim, trebuie ca F1 să fie mai mare sau egal cu 0.9.
📊 Sursă
Datasetul provine de pe Kaggle: Kaggle Emotion Dataset.