Arhiva contradicțiilor
Autor: Alexandru Deonise
Poveste
Agenția internațională de fact-checking VeritasAI monitorizează zilnic mii de afirmații publice - din declarații politice, articole de presă, postări pe rețele sociale și rapoarte oficiale. Pentru fiecare afirmație, analiștii trebuie să consulte o arhivă enciclopedică uriașă și să stabilească dacă afirmația este susținută de surse, contrazisă de acestea sau imposibil de verificat cu informațiile disponibile.
Până acum, verificarea era făcută manual de o echipă de jurnaliști de investigație. Dar volumul afirmațiilor a crescut exponențial, iar echipa nu mai face față. Directorul editorial a decis: VeritasAI are nevoie de un sistem automat.
Arhiva conține milioane de paragrafe extrase din Wikipedia. Sistemul tău trebuie să caute automat informațiile relevante și să raționeze logic. Exact ca un analist uman de OSINT, dar la viteza unui computer.
Ești recrutat să construiești acest sistem. Reputația agenției și adevărul depind de tine.
Cerință
Se dau trei fișiere de intrare:
train.csv— afirmații pentru care verdictul este cunoscutpublic_test.csv— afirmații pentru care trebuie să prezici verdictulwiki_pages.csv— corpusul enciclopedic de referință (extras din Wikipedia)
Fiecare afirmație trebuie clasificată în una dintre trei categorii:
| Etichetă | Semnificație |
|---|---|
SUPPORTS | Afirmația este susținută de informațiile din corpus |
REFUTES | Afirmația este contrazisă de informațiile din corpus |
NOT ENOUGH INFO | Afirmația nu poate fi verificată cu informațiile disponibile |
Sistemul tău trebuie să caute automat dovezile relevante în wiki_pages.csv și să determine verdictul pe baza lor.
Rezultatul va fi salvat într-un fișier submission.csv.
Formatul fișierelor
train.csv
Conține afirmații cu verdict cunoscut.
| Câmp | Tip | Descriere |
|---|---|---|
id | întreg | Identificator unic al afirmației |
claim | string | Textul afirmației de verificat |
label | string | Verdictul corect: SUPPORTS, REFUTES sau NOT ENOUGH INFO |
Exemplu:
id,claim,label75397,"Nikolaj Coster-Waldau worked with the Fox Broadcasting Company.",SUPPORTS137334,"Ukrainian Soviet Socialist Republic was a founding member of the UN.",SUPPORTS87432,"The Battle of Shiloh took place in 1864.",REFUTES113021,"The actor appeared in a film directed by an unknown director.",NOT ENOUGH INFOpublic_test.csv
Conține afirmații fără verdict — acestea trebuie clasificate de sistemul tău.
| Câmp | Tip | Descriere |
|---|---|---|
id | întreg | Identificator unic |
claim | string | Textul afirmației de verificat |
Exemplu:
id,claim19001,"The Eiffel Tower is located in Berlin."19002,"Marie Curie was awarded the Nobel Prize in Physics."19003,"The director won an award at an unspecified festival."wiki_pages.csv
Corpusul enciclopedic de referință. Fiecare rând reprezintă un document Wikipedia.
| Câmp | Tip | Descriere |
|---|---|---|
doc_id | string | Titlul documentului (ex. Eiffel_Tower) |
text | string | Textul complet al documentului |
lines | string | Propozițiile indexate, format: index\tpropoziție\n |
Exemplu:
doc_id,text,linesEiffel_Tower,"The Eiffel Tower is a wrought-iron lattice tower...","0\tThe Eiffel Tower is a wrought-iron lattice tower on the Champ de Mars in Paris.\n1\tIt was constructed from 1887 to 1889.\n"Marie_Curie,"Marie Curie was a Polish and naturalised-French physicist...","0\tMarie Curie was a Polish and naturalised-French physicist and chemist.\n1\tShe was the first woman to win a Nobel Prize.\n"submission.csv
Fișierul pe care trebuie să îl generezi și să îl trimiți.
| Câmp | Tip | Descriere |
|---|---|---|
id | întreg | Identificatorul afirmației din public_test.csv |
subtaskID | întreg | Va conține valoarea default 1 |
label | string | Verdictul prezis |
Exemplu:
id,subtaskID,label19001,1,SUPPORTS19002,1,REFUTES19003,1,NOT ENOUGH INFOConstrângeri format:
- Fișierul trebuie să conțină exact toate id-urile din
public_test.csv - Câmpul
labelacceptă doar valorile:SUPPORTS,REFUTES,NOT ENOUGH INFO - Nu sunt permise id-uri duplicate
Observații
- Nu este permisă utilizarea etichetelor sau a evidenței corecte furnizate de benchmark-ul original FEVER.
- Sistemul trebuie să realizeze retrieval automat din
wiki_pages.csv- informația relevantă nu este indicată. - Sunt permise orice tehnici de procesare a limbajului natural și de învățare automată.
Evaluare
Soluțiile sunt evaluate pe baza Macro F1-score — media aritmetică a scorurilor F1 pe fiecare clasă în parte.
Această metrică penalizează soluțiile care ignoră clasele mai rare (ex. REFUTES).
Calculul punctajului:
Referințe
[1] Thorne, J., Vlachos, A., Christodoulopoulos, C., and Mittal, A., "FEVER: a large-scale dataset for Fact Extraction and VERification", Proceedings of NAACL-HLT, 2018.