Identifying the author of some verses - Difficulty: MEDIUM | MLCompete

Identificarea autorului unor versuri

Author: Mihai Nan

Medium

Your best score: N/A

Problem Description

Descrierea problemei

Se oferă un set de date cu poezii în limba română, fiecare scrisă de unul dintre cei 7 autori. Poeziile au fost împărțite ulterior în grupuri de câte 4 versuri.

Cei 7 autori sunt:

Ana Blandiana
George Bacovia
George Toparceanu
Grigore Vieru
Lucian Blaga
Mihai Eminescu
Vasile Alecsandri

Un grup de 4 versuri poate reprezenta:

O strofă completă (catren)
O parte dintr-o strofă mai mare (5, 6, 7 versuri, etc.)
O combinație între ultimele rânduri dintr-o strofă și primele rânduri din următoarea strofă

Scopul problemei este să construiești un model care să poată prezice autorul unui grup de 4 versuri.

Fișierele disponibile

train.csv

Setul de date pentru antrenare, conținând următoarele coloane:

Id – identificator unic pentru grupul de versuri
Versuri – conținutul a 4 versuri
Autor – autorul versurilor

Exemplu:

Id	Versuri	Autor
0001	Sus, pe dealuri, Toamna pune...	Mihai Eminescu
0002	Te sărut și eu și Luna...	George Toparceanu

test.csv

Setul de date pentru testare, care nu conține coloana Autor:

Id – identificator unic
Versuri – conținutul a 4 versuri

Exemplu:

Id	Versuri
120001	Freamătul pădurii se așterne ușor...
120002	În zori de zi, zorii răsar peste sat...

Formatul fișierului de submisie

Fișierul de submisie trebuie să fie un CSV cu următoarele coloane:

Id – identificatorul grupului de versuri
Autor – autorul prezis

Exemplu:

Id	Autor
120001	Mihai Eminescu
120002	George Toparceanu

Observații

Modelele pot folosi orice tehnică de procesare a limbajului natural și machine learning.
Evaluarea se va face pe baza acurateței predicțiilor.

Evaluare

Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:

1accuracy = (numar_predicții_corecte / numar_total_predicții)

Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli:

accuracy ≥ 0.9 → 100 puncte
accuracy ≤ 0.5 → 0 puncte
Pentru valorile intermediare se acordă punctaj proporțional între 0 și 100.

Files

Submit Solution

Upload output file and optionally source code for evaluation.

Submission File

Click to upload or drag and drop

CSV, ZIP, etc. (MAX. 100MB)

Source Code File (optional)

Click to upload or drag and drop

Archive, notebook or code file