DialectRO
Autor: Havriliuc Teodor Constatin
DialectRO: Clasificarea Dialectelor Limbii Române
Scopul acestei probleme este identificarea și clasificarea textelor în funcție de specificul regional sau forma standard a limbii române. Setul de date conține fragmente de text colectate din diverse regiuni.
| Coloană | Descriere |
|---|---|
| ID | Identificator unic pentru fiecare fragment de text |
| text | Conținutul propriu-zis al frazei în limba română |
| label | Clasificarea dialectului textului (coloana țintă) |
Notă: Coloana label (Dialectul) este disponibilă doar în datele de antrenare (train.csv). Cele trei clase posibile sunt: româna standard, graiul moldovenesc și graiul bănățean.
Subtaskuri
Subtask 1 (5 puncte)
O parte din texte au fost extrase din opera "Cinci pâini" de Ion Creangă. Calculează numărul total de apariții a cuvântului "pâni" (forma arhaică a cuvântului "pâini") în train.csv și în test.csv.
Subtask 2 (10 puncte)
În train.csv calculează media numărului de semne de punctuație pentru textele din graiul moldovenesc și graiul bănățean. Returnează valoarea absolută (modulul) diferenței dintre cele 2 valori, rotunjită la 2 zecimale.
Subtask 3 (10 puncte)
Pentru fiecare rând din test.csv calculează numărul de diacritice din text. Sunt considerate diacritice caracterele: ă, â, î, ș, ț (și variantele lor majuscule Ă, Â, Î, Ș, Ț).
Subtask 4 (75 puncte)
Construiește un model capabil să clasifice corect textele din fișierul de test în una dintre cele 3 clase.
Evaluare
Subtask 1 și 2
Evaluarea se face prin verificare exactă a răspunsului. Răspuns corect = punctaj maxim, răspuns greșit = 0 puncte.
Subtask 3
Evaluarea se face prin accuracy — proporția de răspunsuri corecte din total. Punctajul este proporțional: accuracy 1.0 = 10 puncte, accuracy 0.0 = 0 puncte.
Subtask 4
Evaluarea se face folosind metrica F1-Macro.
- Dacă F1 >= 0.975 : se acordă 75 puncte
- Dacă F1 < 0.8 : se acordă 0 puncte
- Pentru valori între 0.8 și 0.975, punctajul se calculează proporțional între 0 și 75.
Formatul fișierului de submisie
Fișierul de submisie trebuie să fie în format CSV, conținând următoarele coloane:
- subtaskID: numărul subtaskului (1, 2, 3 sau 4).
- datapointID:
- pentru subtaskurile 1 și 2 valoarea va fi
1. - pentru subtaskurile 3 și 4 vor fi valorile din coloana
IDdintest.csv.
- pentru subtaskurile 1 și 2 valoarea va fi
- answer: răspunsul tău.
Exemplu
subtaskID,datapointID,answer
1,1,32
2,1,5.07
3,101,2
3,102,4
3,103,2
...
4,101,româna standard
4,102,graiul moldovenesc
4,103,graiul bănățean
...
Notă: Rezolvarea acestei probleme nu necesită utilizarea arhitecturilor de tip Transformer (ex: RoBERTa).