Auteur: Havriliuc Teodor Constatin
Scopul acestei probleme este identificarea și clasificarea textelor în funcție de specificul regional sau forma standard a limbii române. Setul de date conține fragmente de text colectate din diverse regiuni.
| Coloană | Descriere |
|---|---|
| ID | Identificator unic pentru fiecare fragment de text |
| text | Conținutul propriu-zis al frazei în limba română |
| label | Clasificarea dialectului textului (coloana țintă) |
Notă: Coloana label (Dialectul) este disponibilă doar în datele de antrenare (train.csv). Cele trei clase posibile sunt: româna standard, graiul moldovenesc și graiul bănățean.
O parte din texte au fost extrase din opera "Cinci pâini" de Ion Creangă. Calculează numărul total de apariții a cuvântului "pâni" (forma arhaică a cuvântului "pâini") în train.csv și în test.csv.
În train.csv calculează media numărului de semne de punctuație pentru textele din graiul moldovenesc și graiul bănățean. Returnează valoarea absolută (modulul) diferenței dintre cele 2 valori, rotunjită la 2 zecimale.
Pentru fiecare rând din test.csv calculează numărul de diacritice din text. Sunt considerate diacritice caracterele: ă, â, î, ș, ț (și variantele lor majuscule Ă, Â, Î, Ș, Ț).
Construiește un model capabil să clasifice corect textele din fișierul de test în una dintre cele 3 clase.
Evaluarea se face prin verificare exactă a răspunsului. Răspuns corect = punctaj maxim, răspuns greșit = 0 puncte.
Evaluarea se face prin accuracy — proporția de răspunsuri corecte din total. Punctajul este proporțional: accuracy 1.0 = 10 puncte, accuracy 0.0 = 0 puncte.
Evaluarea se face folosind metrica F1-Macro.
Fișierul de submisie trebuie să fie în format CSV, conținând următoarele coloane:
1.ID din test.csv.subtaskID,datapointID,answer
1,1,32
2,1,5.07
3,101,2
3,102,4
3,103,2
...
4,101,româna standard
4,102,graiul moldovenesc
4,103,graiul bănățean
...
Notă: Rezolvarea acestei probleme nu necesită utilizarea arhitecturilor de tip Transformer (ex: RoBERTa).