Redacția de știri

Author: Mihai Nan

Medium

Your best score: N/A

Problem Description

Poveste

Redacția unei agenții internaționale de presă gestionează zilnic mii de articole provenite din domenii variate: economie, politică, știință, tehnologie și mediu. Pentru a putea arhiva și distribui rapid informațiile, fiecare articol trebuie încadrat într-o categorie tematică.

Din cauza unei defecțiuni tehnice, etichetele unor articole recente au fost pierdute. Redacția apelează la tine pentru a construi un sistem inteligent care să poată clasifica automat articolele de știri pe baza conținutului lor.

Cerință

Se dau două fișiere de intrare:

train.csv – conține articole de știri pentru care categoria este cunoscută
test.csv – conține articole de știri fără categorie

Fiecare articol este identificat printr-un id unic și are asociat un text.
Folosind datele din train.csv, trebuie să construiești un model de clasificare care să prezică eticheta (label) fiecărui articol din test.csv.

Rezultatul va fi salvat într-un fișier submission.csv.

Formatul fișierelor

`train.csv`

Conține următoarele coloane:

id – identificator unic al articolului (string, ex. 000001)
text – conținutul articolului
label – categoria articolului (număr întreg)

Exemplu:

id,text,label
000001,"Wall St. Bears Claw Back Into the Black (Reuters)...",2
000002,"Carlyle Looks Toward Commercial Aerospace (Reuters)...",2
000003,"Oil and Economy Cloud Stocks' Outlook (Reuters)...",2

`test.csv`

Conține următoarele coloane:

id – identificator unic
text – conținutul articolului

Exemplu:

id,text
120001,"Fears for T N pension after talks Unions represent..."
120002,"The Race is On: Second Private Team Sets Launch..."
120003,"Ky. Company Wins Grant to Study Peptides (AP)..."

`submission.csv`

Fișierul generat pentru submisie trebuie să fie în format csv și să conțină următoarele:

id – identificatorul articolului
label – categoria prezisă

Exemplu:

id,label
120001,2
120002,3
120003,3

Observații

Etichetele sunt valori numerice întregi, iar semnificația lor trebuie dedusă exclusiv din train.csv.
Sunt permise orice metode de procesare a limbajului natural și de învățare automată.
Evaluarea soluțiilor se face pe baza acurateții predicțiilor.

Evaluare

Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:

accuracy = (numar_predicții_corecte / numar_total_predicții)

Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli:

accuracy ≥ 0.98 → 100 puncte
accuracy ≤ 0.9 → 0 puncte
Pentru valorile intermediare se acordă punctaj proporțional între 0 și 100.

Files

Submit Solution

Upload output file and optionally source code for evaluation.

Submission File

Click to upload or drag and drop

CSV, ZIP, etc. (MAX. 100MB)

Source Code File (optional)

Click to upload or drag and drop

Archive, notebook or code file