Author: Mihai Nan
Se oferă un set de date cu poezii în limba română, fiecare scrisă de unul dintre cei 7 autori. Poeziile au fost împărțite ulterior în grupuri de câte 4 versuri.
Cei 7 autori sunt:
Un grup de 4 versuri poate reprezenta:
Scopul problemei este să construiești un model care să poată prezice autorul unui grup de 4 versuri.
Setul de date pentru antrenare, conținând următoarele coloane:
Id – identificator unic pentru grupul de versuriVersuri – conținutul a 4 versuriAutor – autorul versurilorExemplu:
| Id | Versuri | Autor |
|---|---|---|
| 0001 | Sus, pe dealuri, Toamna pune... | Mihai Eminescu |
| 0002 | Te sărut și eu și Luna... | George Toparceanu |
Setul de date pentru testare, care nu conține coloana Autor:
Id – identificator unicVersuri – conținutul a 4 versuriExemplu:
| Id | Versuri |
|---|---|
| 120001 | Freamătul pădurii se așterne ușor... |
| 120002 | În zori de zi, zorii răsar peste sat... |
Fișierul de submisie trebuie să fie un CSV cu următoarele coloane:
Id – identificatorul grupului de versuriAutor – autorul prezisExemplu:
| Id | Autor |
|---|---|
| 120001 | Mihai Eminescu |
| 120002 | George Toparceanu |
Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:
accuracy = (numar_predicții_corecte / numar_total_predicții)
Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli: