Identificarea autorului unor versuri
Author: Mihai Nan
Medium
Your best score: N/A
Problem Description
Descrierea problemei
Se oferă un set de date cu poezii în limba română, fiecare scrisă de unul dintre cei 7 autori. Poeziile au fost împărțite ulterior în grupuri de câte 4 versuri.
Cei 7 autori sunt:
- Ana Blandiana
- George Bacovia
- George Toparceanu
- Grigore Vieru
- Lucian Blaga
- Mihai Eminescu
- Vasile Alecsandri
Un grup de 4 versuri poate reprezenta:
- O strofă completă (catren)
- O parte dintr-o strofă mai mare (5, 6, 7 versuri, etc.)
- O combinație între ultimele rânduri dintr-o strofă și primele rânduri din următoarea strofă
Scopul problemei este să construiești un model care să poată prezice autorul unui grup de 4 versuri.
Fișierele disponibile
train.csv
Setul de date pentru antrenare, conținând următoarele coloane:
Id– identificator unic pentru grupul de versuriVersuri– conținutul a 4 versuriAutor– autorul versurilor
Exemplu:
| Id | Versuri | Autor |
|---|---|---|
| 0001 | Sus, pe dealuri, Toamna pune... | Mihai Eminescu |
| 0002 | Te sărut și eu și Luna... | George Toparceanu |
test.csv
Setul de date pentru testare, care nu conține coloana Autor:
Id– identificator unicVersuri– conținutul a 4 versuri
Exemplu:
| Id | Versuri |
|---|---|
| 120001 | Freamătul pădurii se așterne ușor... |
| 120002 | În zori de zi, zorii răsar peste sat... |
Formatul fișierului de submisie
Fișierul de submisie trebuie să fie un CSV cu următoarele coloane:
Id– identificatorul grupului de versuriAutor– autorul prezis
Exemplu:
| Id | Autor |
|---|---|
| 120001 | Mihai Eminescu |
| 120002 | George Toparceanu |
Observații
- Modelele pot folosi orice tehnică de procesare a limbajului natural și machine learning.
- Evaluarea se va face pe baza acurateței predicțiilor.
Evaluare
Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:
accuracy = (numar_predicții_corecte / numar_total_predicții)
Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli:
- accuracy ≥ 0.9 → 100 puncte
- accuracy ≤ 0.5 → 0 puncte
- Pentru valorile intermediare se acordă punctaj proporțional între 0 și 100.