Skip to main content

Redacția de știri

Author: Mihai Nan

Medium
Your best score: N/A
Problem Description

Poveste

Redacția unei agenții internaționale de presă gestionează zilnic mii de articole provenite din domenii variate: economie, politică, știință, tehnologie și mediu. Pentru a putea arhiva și distribui rapid informațiile, fiecare articol trebuie încadrat într-o categorie tematică.

Din cauza unei defecțiuni tehnice, etichetele unor articole recente au fost pierdute. Redacția apelează la tine pentru a construi un sistem inteligent care să poată clasifica automat articolele de știri pe baza conținutului lor.


Cerință

Se dau două fișiere de intrare:

  • train.csv – conține articole de știri pentru care categoria este cunoscută
  • test.csv – conține articole de știri fără categorie

Fiecare articol este identificat printr-un id unic și are asociat un text.
Folosind datele din train.csv, trebuie să construiești un model de clasificare care să prezică eticheta (label) fiecărui articol din test.csv.

Rezultatul va fi salvat într-un fișier submission.csv.


Formatul fișierelor

train.csv

Conține următoarele coloane:

  • id – identificator unic al articolului (string, ex. 000001)
  • text – conținutul articolului
  • label – categoria articolului (număr întreg)

Exemplu:

id,text,label
000001,"Wall St. Bears Claw Back Into the Black (Reuters)...",2
000002,"Carlyle Looks Toward Commercial Aerospace (Reuters)...",2
000003,"Oil and Economy Cloud Stocks' Outlook (Reuters)...",2

test.csv

Conține următoarele coloane:

  • id – identificator unic
  • text – conținutul articolului

Exemplu:

id,text
120001,"Fears for T N pension after talks Unions represent..."
120002,"The Race is On: Second Private Team Sets Launch..."
120003,"Ky. Company Wins Grant to Study Peptides (AP)..."

submission.csv

Fișierul generat pentru submisie trebuie să fie în format csv și să conțină următoarele:

  • id – identificatorul articolului
  • label – categoria prezisă

Exemplu:

id,label
120001,2
120002,3
120003,3

Observații

  • Etichetele sunt valori numerice întregi, iar semnificația lor trebuie dedusă exclusiv din train.csv.
  • Sunt permise orice metode de procesare a limbajului natural și de învățare automată.
  • Evaluarea soluțiilor se face pe baza acurateții predicțiilor.

Evaluare

Predicțiile vor fi comparate cu limbile reale și se va calcula acuratețea:

accuracy = (numar_predicții_corecte / numar_total_predicții)

Punctajul final este calculat pe baza acurateței obținute folosind următoarele reguli:

  • accuracy ≥ 0.98 → 100 puncte
  • accuracy ≤ 0.9 → 0 puncte
  • Pentru valorile intermediare se acordă punctaj proporțional între 0 și 100.
Submit Solution
Upload output file and optionally source code for evaluation.

Submission File

Source Code File (optional)

Sign in to upload a submission.