Author: Mihai Nan
Într-o lună de decembrie cu fulgi mari și liniștiți, când satul încă mirosea a lemn ars și a fân proaspăt scos din hambare, în mijlocul țării se deschideau porțile Expoziției Naționale a Iepurilor. În halele încălzite, strălucind sub luminile galbene, crescători din toate colțurile țării își aduceau cu speranță cele mai frumoase și mai bine îngrijite animale.

Exemplare din trei rase mari de iepuri (fiecare cu înfățișări și obiceiuri bine împământenite) aveau să se întâlnească din nou în același loc.
Fiecare animal primea o plăcuță cu un ID, iar într-un registru gros, legat în piele, erau trecute toate semnele care îl deosebeau de ceilalți:
sexul, greutatea, lungimea urechilor, dacă urechile îi sunt lăsate sau nu, culoarea blănii, vârsta, tipul și calitatea blănii, forma corpului, dacă are sau nu gușă, precum și starea de sănătate.
Era felul organizatorilor de a păstra o mărturie completă despre fiecare suflet blănos intrat în hală.
Organizatorii doresc să știe câte dintre femelele aduse la expoziție aveau urechile lăsate și purtau nuanța nobilă de havana. Rezultatul trebuie să-l determinați pe baza setului de testare (test_data.csv).
Nimic complicat, trebuie doar să realizezi o căutare atentă prin registre pentru a le oferi acest răspuns.
![]() | ![]() | ![]() |
Într-o dimineață friguroasă, aburul respirației încă se ridica în hală, iar organizatorii au descoperit că o pagină importantă dispăruse din registrul oficial.
Rasa fiecărui iepure, atât de atent notată în alți ani, nu se mai găsea nicăieri.
Fuseseră aduse exemplare din trei rase diferite, se știa asta cu siguranță, dar semnele care le identificau direct dispăruseră.
Cei care cunoșteau bine iepurii au fost rugați să observe cu răbdare toate exemplarele și să identifice trei grupuri firești, folosindu-se doar de trăsăturile notate: asemănări, diferențe, limite clare, zone unde animalele păreau apropiate sau îndepărtate ca aspect. Rezultatul trebuie să-l determinați pe baza setului de testare (test_data.csv).
Pentru a evalua cât de bine se potrivesc împărțirile în rase, se folosește Adjusted Rand Index (ARI), care măsoară similaritatea între cele două împărțiri, ajustând pentru potrivirea aleatorie.
Coeficientul ARI pentru două împărțiri este definit ca:
unde:
RI reprezintă indicele Rand între cele două împărțiri;E[RI] este valoarea așteptată a indicelui Rand pentru împărțiri aleatorii.Dacă numărul obținut este aproape de 1, însemna că împărțirea în rase a fost făcută cu pricepere și limitele dintre caracteristicile raselor au fost identificate corect. Organizatorii expoziției sunt foarte exigenți și oferă punctajul maxim pentru acest subtask doar dacă valoarea obținută pentru metrica de evaluare este 1.
În acel decembrie, numărul participanților fusese atât de mare încât arbitrii, oricât s-au străduit, nu au putut să judece toate animalele.
Doar o parte dintre ele primiseră un Scor de Jurizare, între 0 și 100.
0 înseamnă că exemplarul a fost descalificat100 înseamnă că exemplarul este unul ce poate fi declarat campionPentru ceilalți iepuri, nemarcați încă, trebuia găsit un mod de a ghici scorul pe care l-ar fi primit.
Se urmărea un sistem capabil să înțeleagă legăturile dintre iepurii deja notați și cei rămași fără scor, astfel încât estimările să fie cât mai aproape de ceea ce ar fi spus arbitrii.
Cu cât diferențele sunt mai mici, cu atât sistemul este considerat mai iscusit și mai potrivit pentru a ajuta oamenii copleșiți de numărul mare de animale.
Sarcina voastră este să dezvoltați un sistem automat de predicție a scorurilor pentru exemplarele incluse în test_data.csv.
Pentru evaluarea performanței modelului folosim MSE (Mean Squared Error) — eroarea pătratică medie. Aceasta măsoară diferența medie pătratică între valorile reale și valorile prezise.
Formula este:
unde:
y_i este scorul real al exemplarul i,y^_i este scorul prezis de model,n este numărul total de exemplare din setul de test.Valori mai mici ale MSE indică o performanță mai bună. Cu cât valorile prezise sunt mai apropiate de cele reale, cu atât eroarea va fi mai mică.
Pentru a transforma scorul obținut în punctaj, folosim o regulă simplă, bazată pe două praguri:
Rezultatul final trebuie să fie un fișier CSV numit output.csv, care să conțină exact 3 coloane:
subtaskID - reprezintă numărul subtaskului (1, 2, 3)datapointID - care se referă la coloana ID din datasetanswer - răspunsul corespunzător datapointului pentru subtaskul respectivNotă: Pentru subtask-ul 1, la care se cere un singur răspuns pentru tot setul de date de testare, afișați o singură linie a cărei datapointID să fie 1.
Vă rugăm să vă implicați și să ajutați organizatorii Expoziției Naționale a Iepurilor: o poveste despre pasiune și performanță, înțelegere între crescători, asemănări și deosebiri între rase și despre încercarea de a vedea lumea animalelor cu acea răbdare pe care doar un bun crescător o poate avea în prag de sărbători.