Author: Mihai Nan
Instituțiile financiare moderne procesează zilnic mii de solicitări de împrumut.
Pentru a decide rapid și corect cine este eligibil, băncile folosesc sisteme automate
bazate pe modele de risc.
Un astfel de sistem urmează să fie construit chiar de tine. Ai primit acces la un set
realist de date cu aplicații de credit, împreună cu istoricul lor de aprobare.
Obiectivul tău este să dezvolți un model care să poată evalua noile cereri trimise
de clienți.
Ți-au fost puse la dispoziție două fișiere:
loan_status)Scopul principal: predicția unei probabilități pe baza căreia putem clasifica fiecare cerere ca aprobată sau respinsă (o probabilitate între 0 și 1, unde 0 înseamnă că sigur nu este acordat împrumutul și 1 înseamnă că sigur este acordat împrumutul).
Fiecare înregistrare reprezintă o cerere de împrumut, cu informații demografice,
financiare, comportamentale și detalii despre tipul creditului solicitat.
Atribute principale:
customer_id - identificator unicage, occupation_status, years_employedannual_income, credit_score, credit_history_yearssavings_assets, current_debtdefaults_on_file, delinquencies_last_2yrs, derogatory_marksproduct_type, loan_intent, loan_amount, interest_ratedebt_to_income_ratio, loan_to_income_ratio, payment_to_income_ratioloan_status - doar în train.csv, eticheta de prezisScopul final este să prezici loan_status pentru rândurile din test.csv.
Primele trei subtask-uri verifică înțelegerea structurii setului de date.
Ultimul subtask evaluează modelul de clasificare.
Clasificați fiecare solicitant din setul de test în funcție de vârstă:
Young dacă age < 30Adult dacă 30 ≤ age < 60Senior dacă age ≥ 60Determinați nivelul de risc bazat pe debt_to_income_ratio:
LowRisk dacă DTI < 20MediumRisk dacă 20 ≤ DTI < 40HighRisk dacă DTI ≥ 40Pentru fiecare rând din test, calculați:
total_obligations = current_debt + derogatory_marks + delinquencies_last_2yrs
Returnați un număr întreg.
Construiți un model de clasificare care prezice loan_status (o probabilitate p din [0,1]) pentru fiecare rând din test.
Evaluarea se face folosind AUC (Area Under the ROC Curve).
Subtasks 1–3 se evaluează exact (prin comparare).
Fișierul submission.csv trebuie să conțină câte 4 linii pentru fiecare rând din test,
corespunzătoare celor 4 subtasks.
Structură:
subtaskID datapointID answer
unde:
customer_idYoung / Adult / SeniorLowRisk / MediumRisk / HighRiskloan_status = 1 (număr real 0–1)customer_id = 9071:subtaskID datapointID answer
1 9071 Adult
2 9071 MediumRisk
3 9071 12
4 9071 0.742
Succes în dezvoltarea sistemului automatizat de evaluare a împrumuturilor!
Pentru Subtask 4, evaluarea se face folosind ROC AUC (Area Under the ROC Curve).
Aceasta este o măsură unică care sintetizează performanța unui clasificator pentru toate pragurile posibile de decizie.

