Author: Mihai Nan
Într-o lume globalizată, mesajele vin din toate colțurile lumii și pot fi scrise în diverse limbi. Pentru a procesa automat aceste texte (de exemplu, în aplicații automate de traducere) este esențial să putem identifica limba fiecărui text.
Rolul tău este să dezvolți un sistem automat capabil să determine limba unui text, pornind de la antrenarea unui model pe baza unui set de exemple etichetate.
Sistemul automat trebuie să funcționeze pentru următoarele limbi:
Swedish, French, Korean, Japanese, Portugese, English, Persian, Pushto, Thai, Romanian, Tamil, Spanish, Turkish, Estonian, Chinese, Arabic, Urdu, Hindi, Latin, Russian, Indonesian, Dutch
Ai la dispoziție două fișiere CSV:
Fiecare rând din train.csv are următoarele coloane:
SampleID - identificatorul unic al textuluiText - textul originallanguage - limba textuluiExemplu:
SampleID,Text,language
S1,"klement gottwaldi surnukeha palsameeriti ning ...",Estonian
S2,"sebes joseph pereira thomas på eng the jesuit...",Swedish
S3,"de spons behoort tot het geslacht haliclona en...", Dutch
Fiecare rând din test.csv are următoarele coloane:
SampleID - identificatorul unic al textuluiText - textul pentru care trebuie prezisă limbaExemplu:
SampleID,Text
S1001,"ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ..."
S1002,"விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர..."
Construiește un sistem care poate identifica limba textului pentru textele din test.csv.
Predicțiile trebuie salvate într-un fișier submission.csv cu formatul:
SampleID,language
S1001,Thai
S1002,Tamil
S1003,Swedish
unde:
SampleID - identificatorul unic al textului din test.csvlanguage - limba prezisă de sistemul tău, care trebuie să fie una dintre limbile posibile din lista următoare:Swedish, French, Korean, Japanese, Portugese, English, Persian, Pushto, Thai, Romanian, Tamil, Spanish, Turkish, Estonian, Chinese, Arabic, Urdu, Hindi, Latin, Russian, Indonesian, Dutch
Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:
accuracy = (numar_predicții_corecte / numar_total_predicții)
Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli: