Autor: Mihai Nan
Se dorește construirea unui model de clasificare care să prezică emoția principală asociată unui text.
Fiecare exemplu este caracterizat printr-un text scurt și eticheta (label) reprezintă emoția corespunzătoare (ex: joy, anger, sadness, etc.).
Această problemă aparține categoriei de clasificare multi-clasă.
text – conținutul textual al mesajului sau articoluluiEticheta țintă este:
label – emoția asociată textului (string)train.csvConține coloanele:
SampleIDtextlabelExemplu:
| SampleID | text | label |
|---|---|---|
| 1 | "I am so happy today!" | joy |
| 2 | "I feel really angry about this situation." | anger |
| 3 | "Feeling a bit sad after watching that movie." | sadness |
test.csvConține aceleași coloane fără label, dar include SampleID.
Exemplu:
| SampleID | text |
|---|---|
| 101 | "What a wonderful surprise!" |
| 102 | "I can't believe this happened." |
Fișierul de ieșire (submission.csv) trebuie să conțină exact două coloane:
SampleIDlabel – eticheta prezisă de modelExemplu:
| SampleID | label |
|---|---|
| 101 | joy |
| 102 | surprise |
Evaluarea modelelor se va face utilizând Macro F1-score:
unde:
Scorul final va fi transformat în intervalul 0–100, astfel încât un F1 mare să conducă la scor mare. Pentru scorul maxim, trebuie ca F1 să fie mai mare sau egal cu 0.9.
Datasetul provine de pe Kaggle: Kaggle Emotion Dataset.