Redacția de știri
Author: Mihai Nan
Poveste
Redacția unei agenții internaționale de presă gestionează zilnic mii de articole provenite din domenii variate: economie, politică, știință, tehnologie și mediu. Pentru a putea arhiva și distribui rapid informațiile, fiecare articol trebuie încadrat într-o categorie tematică.
Din cauza unei defecțiuni tehnice, etichetele unor articole recente au fost pierdute. Redacția apelează la tine pentru a construi un sistem inteligent care să poată clasifica automat articolele de știri pe baza conținutului lor.
Cerință
Se dau două fișiere de intrare:
train.csv– conține articole de știri pentru care categoria este cunoscutătest.csv– conține articole de știri fără categorie
Fiecare articol este identificat printr-un id unic și are asociat un text.
Folosind datele din train.csv, trebuie să construiești un model de clasificare care să prezică eticheta (label) fiecărui articol din test.csv.
Rezultatul va fi salvat într-un fișier submission.csv.
Formatul fișierelor
train.csv
Conține următoarele coloane:
id– identificator unic al articolului (string, ex.000001)text– conținutul articoluluilabel– categoria articolului (număr întreg)
Exemplu:
id,text,label
000001,"Wall St. Bears Claw Back Into the Black (Reuters)...",2
000002,"Carlyle Looks Toward Commercial Aerospace (Reuters)...",2
000003,"Oil and Economy Cloud Stocks' Outlook (Reuters)...",2
test.csv
Conține următoarele coloane:
id– identificator unictext– conținutul articolului
Exemplu:
id,text
120001,"Fears for T N pension after talks Unions represent..."
120002,"The Race is On: Second Private Team Sets Launch..."
120003,"Ky. Company Wins Grant to Study Peptides (AP)..."
submission.csv
Fișierul generat pentru submisie trebuie să fie în format csv și să conțină următoarele:
id– identificatorul articoluluilabel– categoria prezisă
Exemplu:
id,label
120001,2
120002,3
120003,3
Observații
- Etichetele sunt valori numerice întregi, iar semnificația lor trebuie dedusă exclusiv din
train.csv. - Sunt permise orice metode de procesare a limbajului natural și de învățare automată.
- Evaluarea soluțiilor se face pe baza acurateții predicțiilor.
Evaluare
Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:
accuracy = (numar_predicții_corecte / numar_total_predicții)
Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli:
- accuracy ≥ 0.98 → 100 puncte
- accuracy ≤ 0.9 → 0 puncte
- Pentru valorile intermediare se acordă punctaj proporțional între 0 și 100.