Autor: Mihai Nan
De-a lungul anilor, rezultatele la examenul de Bacalaureat oferă o imagine detaliată asupra performanței liceelor din România. Analizând date istorice pe mai mulți ani, putem descoperi trenduri, evoluția performanței școlare și, uneori, rezultate care ies din tipar.
În acest context, scopul acestei probleme este de a analiza statistic performanța liceelor la Bacalaureat, de a construi modele predictive și de a identifica rezultate atipice folosind metode de Machine Learning.
Pentru a rezolva cerințele acestei probleme aveți acces la un dataset structurat sub forma a două fișiere csv: train.csv și test.csv. Acest set de date conține rezultate agregate ale liceelor la diferite probe ale examenului de Bacalaureat, pentru perioada 2014–2023.
Fiecare rând din setul de date (indiferent că este vorba despre setul de antrenare sau cel pentru testare) reprezintă rezultatele unui liceu, pentru o materie, într-un an.
id – identificator unic al rânduluian – anul examenuluiliceu – denumirea liceuluijudet – județul în care se află liceulmaterie – disciplina de Bacalaureatmedie – media notelor obținute de elevii liceului la disciplina respectivăprocent_reusita – procentul elevilor care au promovat probanumar_candidati – numărul de candidațipreferinta_materie – procentul elevilor care au ales disciplina respectivăanomalie - poate avea valoarea 0 dacă nu este considerată o situație anormală sau valoarea 1 dacă situația este neobișnuită.Observație: Pentru fiecare liceu avem și niște statistici generale. Pentru acelea, în coloana materie găsim valoarea GENERAL.
Fișierul train.csv conține statisticile provenite din perioada 2014-2022, iar fișierul test.csv conține datele pentru anul 2023, însă coloanele medie și anomalie nu sunt disponibile.
Identificați care a fost materia cu cea mai mare preferință în anul 2023 de la COLEGIUL NATIONAL "UNIREA" FOCSANI, dacă excludem materia LIMBA ROMANA care a fost obligatorie pentru toți candidații.
Identificați în ce an din perioada 2014-2022 materia INFORMATICA MI C-C++ a avut cea mai mare popularitate la COLEGIUL NATIONAL "UNIREA" FOCSANI. Considerăm că popularitatea este dată de procentul din coloana preferinta_materie (cu cât acest procent este mai mare, cu atât vom considera că materia a fost mai populară).
Folosind informațiile disponibile în fișierul train.csv, estimați valoarea mediei obținute pentru fiecare rând din fișierul test.csv (anul 2023).
Pentru această cerință puteți utiliza orice metodă de analiză statistică sau modelare bazată pe datele istorice, ținând cont de:
Scopul este obținerea unor estimări cât mai apropiate de valorile reale.
Analizați datele istorice din perioada 2014–2022 și decideți, pentru fiecare rând din fișierul test.csv, dacă rezultatul corespunzător anului 2023 este:
În luarea deciziei puteți ține cont de:
Rezultatul final pentru fiecare rând trebuie să fie o etichetă binară:
0 - rezultat normal1 - rezultat atipicPentru evaluarea automată trebuie să încărcați un fișier în format csv cu următoarea structură:
id – identificatorul rândului (corespunzător celui din test.csv)
ididsubtaskID – identificatorul cerinței:
1 pentru identificarea materiei preferate (cerința 1)2 pentru identificarea anului prosper pentru Informatică (cerința 2)3 pentru estimarea mediei (cerința 3)4 pentru identificarea rezultatelor atipice (cerința 4)answer – răspunsul corespunzător cerinței:
subtaskID = 1: denumirea materiei exact așa cum apare ea în datasetsubtaskID = 2: anulsubtaskID = 3: o valoare numerică (estimarea mediei)subtaskID = 4: 0 sau 1Pentru cerințele 1–2 se evaluează exact (prin comparare).
Pentru cerința 3 evaluarea se face folosind Mean Absolute Error (MAE).
Reguli:
Pentru cerința 4, punctajul este acordat în funcție de următoarele reguli: