Författare: Mihai Nan
În Biblioteca Marelui Regat, arhiviștii se confruntă cu o sarcină tot mai dificilă:
mii de manuscrise, pergamente și cronică veche trebuie organizate, comparate și indexate.
Pentru a-i ajuta, strămoșii au creat un mecanism legendar: Oracolul similarității. Acesta este
un dispozitiv capabil să stabilească, cu o precizie remarcabilă, cât de asemănătoare
sunt două fragmente de text, întorcând un scor între 0 și 5.
Dar mecanismul s-a degradat în timp, iar Marele Consiliu al Arhiviștilor a decis că este nevoie
de o versiune modernă, construită folosind învățare automată.
Pentru aceasta, ți s-au pus la dispoziție două fișiere:
train.csv - pergamentele adnotate manual de scribitest.csv - perechi noi care trebuie analizate de soluția taSarcina ta este să reconstruiești Oracolul printr-o serie de analize și un model predictiv final.
Fiecare rând din fișierele train.csv și test.csv reprezintă o pereche de propoziții:
Scopul final este să prezici score pentru fiecare rând din test.csv.
Pentru primele subtask-uri, trebuie să analizați datele furnizate în train.csv și test.csv
și să extrageți diferite informații relevante despre propozițiile din test.
Calculați lungimea fiecărei propoziții (sentence1 și sentence2) pentru fiecare rând din setul de test
și etichetați perechea în funcție de lungimea medie:
Short dacă media < 50Medium dacă 50 ≤ media < 100Long dacă media ≥ 100Pentru fiecare rând din test, calculați numărul de cuvinte din fiecare propoziție (sentence1 și sentence2) și determinați numărul total după formula:
număr_total = nr_cuvinte(sentence1) + nr_cuvinte(sentence2)
Stabiliți diferența absolută dintre lungimea sentence1 și lungimea sentence2
pentru fiecare rând din test.
Cu alte cuvinte, pentru fiecare rând trebuie să calculăm:
|nr_caractere(sentence1) - nr_caractere(sentence2)|
Construiți un model de învățare automată capabil să prezică valoarea numerică score
pentru fiecare rând din test.csv.
Evaluarea finală se va face folosind MAE (Mean Absolute Error), calculat astfel:
Metrica pentru Subtask 4 este:
Pentru subtasks 1-3, răspunsurile sunt evaluate exact.
Fișierul submission.csv trebuie să conțină câte 4 linii pentru fiecare rând din test,
corespunzătoare celor 4 subtasks.
Structura:
subtaskID datapointID answer
Semnificația coloanelor:
subtaskID – un număr între 1 și 4
datapointID – sampleID din test
answer – rezultatul:
Short / Medium / LongsampleID = 1714:subtaskID datapointID answer
1 1714 Medium
2 1714 15
3 1714 3
4 1714 3.74
Succes! Marele Consiliu al Arhiviștilor își pune speranțele în voi pentru a reînvia Oracolul similarității! 🧙♂️