Constelatiile Serifului Adormit
Author: Rus Vlad-Andrei
Constelatiile Serifului Adormit
O Provocare din Vestul Salbatic
Nota
Se pot folosi in mod explicit modele de limbaj preantrenate (ex: BERT, RoBERTa, sentence-transformers) cu weights incarcate. Accelerarea GPU pentru antrenare si inferenta este complet permisa. Pipeline-urile clasice NLP bazate pe TF-IDF sunt de asemenea permise si incurajate.
Povestea
Undeva pe campiile uscate din New Mexico, 1883.
Batranul Serif Clem Dudley avea un obicei pe care niciun adjunct nu l-a inteles vreodata: in fiecare seara, indiferent cat de lunga fusese ziua, isi punea palaria pe saua calului, se intindea pe patura si privea drept in sus, spre cer.
"Stelele nu mint", obisnuia sa spuna. "Orice fugar, orice vagabond, orice om cinstit — toti privesc acelasi cer."
Intr-o noapte de august, epuizat dupa trei zile de urmarit banda Vega prin desert, Clem se intinse sub un cer negru ca cerneala, presarat cu mai multe stele decat numarase vreodata. Incerca sa adoarma cand stelele au inceput sa se miste — incet la inceput, ca jarul purtat de un vant dintr-un foc pe moarte. Apoi tot mai repede. Trasau linii intre ele. Triunghiuri. Spirale. Animale. Cifre. Forme carora nu le stia numele.
"Trebuie sa fie caldura", mormai el. Dar tot privea.
Formele au devenit cuvinte. Nu rostite — simtite. Fiecare constelatie parea sa poarte un inteles, o greutate, o poveste atarnata de ea ca un afis de cautat pe un panou de sheriff. Intinse mana dupa creion sa le noteze, si atunci — nimic.
S-a trezit in alta parte.
Taramul dintre Stele. Asa il numeau ei.
Era un teritoriu vast si tacut unde cerul era pamantul, iar constelatiile erau sate — fiecare un grup de stele aranjate intr-o forma, si fiecare forma purtand un nume care astepta sa fie potrivit cu povestea lui. Locuitorii acestui taram, Scribii Stelelor, tinusera evidente meticuloase de secole: jurnale, poeme, jurnale de drum, legende — toate scrise de oameni care privisera aceleasi forme de stele de jos, de pe pamant.
Dar ceva mersese prost. O mare furtuna celesta — localnicii o numeau Risipirea — smulsese fiecare eticheta de pe fiecare constelatie si le aruncase in vant. Acum mii de texte pluteau dezlegate deasupra formelor de stele pe care le descriserera odată, iar Scribii Stelelor nu mai puteau spune care poveste apartinea carui cer.
Lui Clem i s-a inmanat o insigna din lumina de stele si o instructiune simpla:
"Potriveste cuvintele inapoi la stele, Serife. Inainte sa vina urmatoarea furtuna."
Sarcina
Ti se ofera un set de constelatii de stele, fiecare descrisa printr-o secventa de puncte 2D care formeaza o forma geometrica (ex: o cruce, o spirala, o figura cu cinci colturi, cifre precum 6, 7, 8, combinatii de cifre, etc). Ti se ofera de asemenea un pool mare de fragmente text candidat — insemnari de jurnal, legende, descrieri — fiecare scris initial despre o singura constelatie specifica.
Obiectivul tau este sa construiesti un model capabil sa atribuie corect fiecarui text din pool constelatia corespunzatoare, bazandu-se exclusiv pe relatia semantica si structurala dintre geometria coordonatelor si continutul textului.
Structura Datelor
Setul de Antrenare
train.csv contine 300 de perechi constelatie-text cu etichete:
| Coloana | Descriere |
|---|---|
id | ID-ul constelatiei (0-299) |
coords | Vector de coordonate 728-dimensional, separat prin bare: \|x1\|x2\|...\|x728\| |
text | Fragmentul literar corespunzator |
- Fiecare ID de constelatie apare de 40-65 ori cu variatii geometrice usoare (zgomot, rotatie, scalare).
Setul de Test
test.csv contine 50 de secvente de constelatii fara etichete (datapointID 1-50):
| Coloana | Descriere |
|---|---|
datapointID | Intreg de la 1 la 50 |
coords | Acelasi format cu pipe ca si la antrenare |
Fiecare datapointID apare de 40-65 ori. Nu se furnizeaza etichete text.
Textele Candidat
candidates.csv contine 500 de fragmente text:
| Coloana | Descriere |
|---|---|
text_id | Intreg 0-499 |
text | Un fragment literar (jurnal, poem, legenda) |
- Exact 50 din aceste 500 de texte sunt potrivirile corecte pentru cele 50 de constelatii de test.
- Celelalte 450 sunt distrageri.
- Textele au caracter literar — nu apare vocabular geometric direct in ele.
Formatul Submisiei
Fisierul de submisie trebuie sa fie in format CSV cu urmatoarele coloane:
| Camp | Descriere |
|---|---|
subtaskID | Trebuie sa fie 1 pentru toate randurile |
datapointID | Intreg 1-50, identificatorul constelatiei de test |
answer | text_id-ul prezis (intreg 0-499) |
Fiecare dintre cele 50 de datapointID-uri de test trebuie sa apara exact o singura data.
Exemplu:
subtaskID,datapointID,answer
1,1,42
1,2,317
1,3,467
...
Metrica de Evaluare
Accuracy (echivalent F1-macro)
Fiecare predictie este evaluata ca o clasificare single-label peste cele 500 de ID-uri text candidat. Predictia este fie corecta (1) fie incorecta (0).
Metrica finala este numarul de predictii corecte / 50.
Functia de Punctare
Scorurile brute sunt convertite in puncte de concurs folosind o functie liniara cu prag minim:
| Accuracy | Punctaj |
|---|---|
| < 0.30 | 0 puncte |
| >= 0.85 | 100 puncte |
| Intermediar (0.30 - 0.85) | Scalare liniara intre 0 si 100 |
Pe scurt: trebuie sa potrivesti corect cel putin 15 din 50 de constelatii (accuracy = 0.30) pentru a obtine orice puncte, iar potrivirea corecta a 43 sau mai multor (accuracy >= 0.85) aduce punctajul maxim.
"Stelele nu mint. Poti avea mai multa incredere intr-o stea decat intr-un om..." — Seriful Clem Dudley, 1883