DialectRO - Difficulté: EASY | MLCompete | MLCompete

DialectRO

Auteur: Havriliuc Teodor Constatin

Facile

Votre meilleur score: N/D

Description du problème

DialectRO: Clasificarea Dialectelor Limbii Române

Scopul acestei probleme este identificarea și clasificarea textelor în funcție de specificul regional sau forma standard a limbii române. Setul de date conține fragmente de text colectate din diverse regiuni.

Coloană	Descriere
ID	Identificator unic pentru fiecare fragment de text
text	Conținutul propriu-zis al frazei în limba română
label	Clasificarea dialectului textului (coloana țintă)

Notă: Coloana label (Dialectul) este disponibilă doar în datele de antrenare (train.csv). Cele trei clase posibile sunt: româna standard, graiul moldovenesc și graiul bănățean.

Subtaskuri

Subtask 1 (5 puncte)

O parte din texte au fost extrase din opera "Cinci pâini" de Ion Creangă. Calculează numărul total de apariții a cuvântului "pâni" (forma arhaică a cuvântului "pâini") în train.csv și în test.csv.

Subtask 2 (10 puncte)

În train.csv calculează media numărului de semne de punctuație pentru textele din graiul moldovenesc și graiul bănățean. Returnează valoarea absolută (modulul) diferenței dintre cele 2 valori, rotunjită la 2 zecimale.

Subtask 3 (10 puncte)

Pentru fiecare rând din test.csv calculează numărul de diacritice din text. Sunt considerate diacritice caracterele: ă, â, î, ș, ț (și variantele lor majuscule Ă, Â, Î, Ș, Ț).

Subtask 4 (75 puncte)

Construiește un model capabil să clasifice corect textele din fișierul de test în una dintre cele 3 clase.

Evaluare

Subtask 1 și 2

Evaluarea se face prin verificare exactă a răspunsului. Răspuns corect = punctaj maxim, răspuns greșit = 0 puncte.

Subtask 3

Evaluarea se face prin accuracy — proporția de răspunsuri corecte din total. Punctajul este proporțional: accuracy 1.0 = 10 puncte, accuracy 0.0 = 0 puncte.

Subtask 4

Evaluarea se face folosind metrica F1-Macro.

Dacă F1 >= 0.975 : se acordă 75 puncte
Dacă F1 < 0.8 : se acordă 0 puncte
Pentru valori între 0.8 și 0.975, punctajul se calculează proporțional între 0 și 75.

Formatul fișierului de submisie

Fișierul de submisie trebuie să fie în format CSV, conținând următoarele coloane:

subtaskID: numărul subtaskului (1, 2, 3 sau 4).
datapointID:
- pentru subtaskurile 1 și 2 valoarea va fi 1.
- pentru subtaskurile 3 și 4 vor fi valorile din coloana ID din test.csv.
answer: răspunsul tău.

Exemplu

Python
1subtaskID,datapointID,answer21,1,3232,1,5.0743,101,253,102,463,103,27...84,101,româna standard94,102,graiul moldovenesc104,103,graiul bănățean11...

Notă: Rezolvarea acestei probleme nu necesită utilizarea arhitecturilor de tip Transformer (ex: RoBERTa).

Fichiers

Soumettre une solution

Téléchargez le fichier de sortie et éventuellement le code source pour évaluation.