BAC sub lupă
Autor: Mihai Nan
Context
De-a lungul anilor, rezultatele la examenul de Bacalaureat oferă o imagine detaliată asupra performanței liceelor din România. Analizând date istorice pe mai mulți ani, putem descoperi trenduri, evoluția performanței școlare și, uneori, rezultate care ies din tipar.
În acest context, scopul acestei probleme este de a analiza statistic performanța liceelor la Bacalaureat, de a construi modele predictive și de a identifica rezultate atipice folosind metode de Machine Learning.
Descrierea datelor
Pentru a rezolva cerințele acestei probleme aveți acces la un dataset structurat sub forma a două fișiere csv: train.csv și test.csv. Acest set de date conține rezultate agregate ale liceelor la diferite probe ale examenului de Bacalaureat, pentru perioada 2014–2023.
Fiecare rând din setul de date (indiferent că este vorba despre setul de antrenare sau cel pentru testare) reprezintă rezultatele unui liceu, pentru o materie, într-un an.
Coloane disponibile:
id– identificator unic al rânduluian– anul examenuluiliceu– denumirea liceuluijudet– județul în care se află liceulmaterie– disciplina de Bacalaureatmedie– media notelor obținute de elevii liceului la disciplina respectivăprocent_reusita– procentul elevilor care au promovat probanumar_candidati– numărul de candidațipreferinta_materie– procentul elevilor care au ales disciplina respectivăanomalie- poate avea valoarea 0 dacă nu este considerată o situație anormală sau valoarea 1 dacă situația este neobișnuită.
Observație: Pentru fiecare liceu avem și niște statistici generale. Pentru acelea, în coloana materie găsim valoarea GENERAL.
Fișierul train.csv conține statisticile provenite din perioada 2014-2022, iar fișierul test.csv conține datele pentru anul 2023, însă coloanele medie și anomalie nu sunt disponibile.
Cerințe
Cerința 1 - Identificarea materiei preferate (10 puncte)
Identificați care a fost materia cu cea mai mare preferință în anul 2023 de la COLEGIUL NATIONAL "UNIREA" FOCSANI, dacă excludem materia LIMBA ROMANA care a fost obligatorie pentru toți candidații.
Cerința 2 - Identificarea anului prosper pentru Informatică (10 puncte)
Identificați în ce an din perioada 2014-2022 materia INFORMATICA MI C-C++ a avut cea mai mare popularitate la COLEGIUL NATIONAL "UNIREA" FOCSANI. Considerăm că popularitatea este dată de procentul din coloana preferinta_materie (cu cât acest procent este mai mare, cu atât vom considera că materia a fost mai populară).
Cerința 3 - Estimarea performanței liceelor (40 puncte)
Folosind informațiile disponibile în fișierul train.csv, estimați valoarea mediei obținute pentru fiecare rând din fișierul test.csv (anul 2023).
Pentru această cerință puteți utiliza orice metodă de analiză statistică sau modelare bazată pe datele istorice, ținând cont de:
- materia analizată,
- istoricul liceului,
- evoluția în timp a rezultatelor,
- contextul general al performanțelor la nivel de județ sau național.
Scopul este obținerea unor estimări cât mai apropiate de valorile reale.
Cerința 4 - Identificarea rezultatelor atipice (40 puncte)
Analizați datele istorice din perioada 2014–2022 și decideți, pentru fiecare rând din fișierul test.csv, dacă rezultatul corespunzător anului 2023 este:
- unul normal, sau
- unul atipic, care se abate semnificativ de la comportamentul obișnuit.
În luarea deciziei puteți ține cont de:
- istoricul liceului respectiv,
- variațiile de la un an la altul,
- diferențele între materii,
- comparația cu alte licee similare.
Rezultatul final pentru fiecare rând trebuie să fie o etichetă binară:
0- rezultat normal1- rezultat atipic
Formatul submisiei
Pentru evaluarea automată trebuie să încărcați un fișier în format csv cu următoarea structură:
id– identificatorul rândului (corespunzător celui dintest.csv)- pentru task-ul 1, veți folosi valoarea 1 pentru
id - pentru task-ul 2, veți folosi valoarea 2 pentru
id
- pentru task-ul 1, veți folosi valoarea 1 pentru
subtaskID– identificatorul cerinței:1pentru identificarea materiei preferate (cerința 1)2pentru identificarea anului prosper pentru Informatică (cerința 2)3pentru estimarea mediei (cerința 3)4pentru identificarea rezultatelor atipice (cerința 4)
answer– răspunsul corespunzător cerinței:- pentru
subtaskID = 1: denumirea materiei exact așa cum apare ea în dataset - pentru
subtaskID = 2: anul - pentru
subtaskID = 3: o valoare numerică (estimarea mediei) - pentru
subtaskID = 4:0sau1
- pentru
Evaluare
Pentru cerințele 1–2 se evaluează exact (prin comparare).
Pentru cerința 3 evaluarea se face folosind Mean Absolute Error (MAE).
Reguli:
- MAE < 0.3 → punctaj maxim
- MAE > 1.0 → 0 puncte
- Pentru valori între aceste două praguri, punctajul se acordă proporțional.
Pentru cerința 4, punctajul este acordat în funcție de următoarele reguli:
- AUC ≥ 0.95 → 40 puncte
- AUC ≤ 0.70 → 0 puncte
- Intervalul dintre ele: punctaj proporțional