Author: Mihai Nan
Redacția unei agenții internaționale de presă gestionează zilnic mii de articole provenite din domenii variate: economie, politică, știință, tehnologie și mediu. Pentru a putea arhiva și distribui rapid informațiile, fiecare articol trebuie încadrat într-o categorie tematică.
Din cauza unei defecțiuni tehnice, etichetele unor articole recente au fost pierdute. Redacția apelează la tine pentru a construi un sistem inteligent care să poată clasifica automat articolele de știri pe baza conținutului lor.
Se dau două fișiere de intrare:
train.csv – conține articole de știri pentru care categoria este cunoscutătest.csv – conține articole de știri fără categorieFiecare articol este identificat printr-un id unic și are asociat un text.
Folosind datele din train.csv, trebuie să construiești un model de clasificare care să prezică eticheta (label) fiecărui articol din test.csv.
Rezultatul va fi salvat într-un fișier submission.csv.
train.csvConține următoarele coloane:
id – identificator unic al articolului (string, ex. 000001)text – conținutul articoluluilabel – categoria articolului (număr întreg)Exemplu:
id,text,label
000001,"Wall St. Bears Claw Back Into the Black (Reuters)...",2
000002,"Carlyle Looks Toward Commercial Aerospace (Reuters)...",2
000003,"Oil and Economy Cloud Stocks' Outlook (Reuters)...",2
test.csvConține următoarele coloane:
id – identificator unictext – conținutul articoluluiExemplu:
id,text
120001,"Fears for T N pension after talks Unions represent..."
120002,"The Race is On: Second Private Team Sets Launch..."
120003,"Ky. Company Wins Grant to Study Peptides (AP)..."
submission.csvFișierul generat pentru submisie trebuie să fie în format csv și să conțină următoarele:
id – identificatorul articoluluilabel – categoria prezisăExemplu:
id,label
120001,2
120002,3
120003,3
train.csv.Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:
accuracy = (numar_predicții_corecte / numar_total_predicții)
Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli: