Forfatter: Mihai Nan
În inima unui institut secret de cercetare se află Arhiva celor o mie de camere, un labirint subteran cu încăperi monitorizate non-stop de camere inteligente. Fiecare cameră surprinde obiecte, mobilier, dispozitive electronice sau simboluri ale unor experimente misterioase.
Din motive necunoscute, o parte din datele arhivei și-au pierdut etichetele numerice: în înregistrări apare întrebarea „câte obiecte de tip X se află în imagine?”, dar răspunsul a dispărut. Cercetătorii au încercat să reconstituie manual informațiile, dar mii de imagini sunt imposibil de procesat fără ajutor.
Aici intervii tu.
Ți s-a încredințat rolul de „Analist vizual numeric”, singura persoană autorizată să construiască un model multimodal capabil să privească o imagine, să înțeleagă întrebarea și să răspundă corect cu un singur număr.
Astfel, misiunea ta este să îți folosește priceperea în mânuirea algoritmilor de Inteligență Artificială ca să restaurezi arhiva.
Ai două fișiere principale și un folder cu imagini.
train.csv — Date de antrenare| sample_id | question | answer | image_id |
|---|---|---|---|
| TRAIN0000 | how many chairs are there | 6 | image888 |
| TRAIN0001 | how many pictures are on the wall | 2 | image942 |
| TRAIN0002 | how many chairs are there | 10 | image1404 |
test.csv — Date fără răspuns| sample_id | question | image_id |
|---|---|---|
| TEST0000 | how many drawers are there | image1362 |
| TEST0001 | how many televisions are there | image169 |
| TEST0002 | how many flags are visible | image1326 |
images/
image888.png
image942.png
image1404.png
image1362.png
image169.png
image1326.png
Fișierul submission.csv trebuie să aibă următorul format:
| sample_id | answer |
|---|---|
| TEST0000 | 4 |
| TEST0001 | 1 |
| TEST0002 | 3 |
Pentru că răspunsurile sunt numere, evaluarea oficială folosește MAE:
Punctajul final este calculat pe baza scorului MAE obținut folosind următoarele reguli: