Author: OJIA 2025
Implementați un model de AI/ML pentru a prezice consumul caloric al unei activități având la dispoziție un set de antrenare train_data.csv și setul de testare test_data.csv (pe care trebuie să realizați doar predicția).
Setul de date conține următoarele câmpuri având semnificațiile:
User_ID: ID-ul utilizatorului care a realizat activitateaGender: genul utilizatoruluiAge: vârsta utilizatoruluiHeight: înălțimea utilizatorului în cmWeight: greutatea utilizatorului în kgDuration: durata activitățiiHeart_Rate: ritmul cardiac mediu pe parcursul activitățiiBody_Temp: temperatura medie pe parcursul activitățiiCalories: numărul de calorii consumate pe parcursul activității (prezent doar în setul de date de antrenare)Atributul-țintă este Calories. Date fiind celelalte atribute, scopul este de a prezice Calories pe baza setului de date de testare. Metrica de evaluare folosită este MAE (media sumei diferențelor absolute dintre valoarea prezisă de către algoritm și valoarea corectă).
Partea 1 (20p). Bazat pe setul de date de antrenare calculați următoarele:
"Samples, No.Males, AverageDuration, SeniorUsers”
Samples: numărul de linii din setul de date de antrenareNo.Males: numărul de exemple de antrenament care descriu activități realizate de către bărbațiAverageDuration: durata medie a activităților din setul de antrenare.SeniorUsers: numărul de utilizatori, din setul de antrenare, care au cel puțin 75 de ani împlinițiFiecare din cele 4 subtask-uri valorează 5p.
Partea 2 (80p)
Subtask 5: (60p) Dezvoltați un model de AI/ML și efectuați predicția pentru atributul Calories pentru fiecare exemplu din fișierul cu datele de test, pentru care coloana Subtask are valoarea 5.
Subtask 6: (20p) O echipă de handbal masculin are nevoie să estimeze consumul caloric pentru a optimiza dieta jucătorilor. Dezvoltați un model de AI/ML și realizați predicția numărului de calorii pentru pentru fiecare exemplu din fișierul cu datele de test pentru care coloana Subtask are valoarea 6.
Un fișier csv output.csv care să includă următoarele 3 coloane:
subtaskID - reprezintă numărul subtaskului (1, 2, 3, 4, 5 sau 6)datapointID - care se referă la coloana User_ID din test_data.csvanswer - răspunsul corespunzător datapoint-ului pentru subtaskul respectivNotă: Pentru subtask-urile 1, 2, 3 și 4, la care se cere un singur răspuns pentru tot setul de date, afișați o singură linie a cărei datapointID să fie 1.
Trimiteți un singur csv care să conțină răspunsurile pentru toate subtask-urile pe care le-ați rezolvat. Pentru a vedea un exemplu, descărcați fișierul sample_output.csv