Autor: Stupariu Teodor-Mihai
Pe fondul incertitudinilor legate de inflație, o instituție bancară desfășoară o campanie de marketing telefonic pentru a convinge clienții să deschidă depozite la termen. După un lung program de promovare, compania dorește să evalueze eficiența campaniei. Setul de date conține informații despre clienți, caracteristici demografice și detalii despre apelurile realizate în cadrul campaniei de marketing. Scopul problemei este analiza acestor date și rezolvarea mai multor subtask-uri legate de comportamentul clienților.
Participanții primesc trei fișiere:
deposit.deposit.| Coloană | Descriere |
|---|---|
id | id-ul |
age | vârsta clientului |
job | ocupația clientului |
marital | starea civilă |
education | nivel educațional |
default | dacă clientul a intrat în default vreodată |
balance | soldul contului |
housing | dacă clientul are credit ipotecar |
loan | dacă clientul are credit personal |
contact | tipul de contact |
day | ziua apelului |
month | luna apelului |
duration | durata apelului |
campaign | numărul apelurilor din campanie |
pdays | numărul de zile de la ultima campanie |
previous | numărul contactelor anterioare |
poutcome | rezultatul campaniei anterioare |
deposit | variabila țintă: dacă clientul a deschis un depozit |
Problema este împărțită în patru subtask-uri.
Determinați ocupația (job) cu cea mai mare rată de depozit.
Rata de depozit reprezintă proporția clienților pentru care deposit = 1 din totalul clienților cu acea meserie.
Output: ocupația.
Determinați luna (month) în care a fost contactat telefonic cel mai mare număr de clienți din setul de date de antrenare.
Output: numele lunii.
Construiți un model de clasificare binară care prezice variabila deposit.
Modelul trebuie antrenat folosind train.csv și trebuie să genereze predicții pentru test.csv.
Grupați clienții din test.csv în două clustere pe baza variabilelor numerice și returnați pentru fiecare client eticheta clusterului din care face parte.
Soluția trebuie să genereze un fișier submission.csv cu următoarea structură:
subtaskID,datapointID,answer
1,1,management
2,1,jan
3,5686,0
3,5206,1
...
4,5686,1
4,5206,0
...
Explicații:
datapointID va avea valoarea 1.datapointID va avea valoarea id din test.csv.Subtask 1 — Verificare exactă a răspunsului.
Subtask 2 — Verificare exactă a răspunsului.
Subtask 3 — Clasificarea este evaluată folosind F1 macro:
| F1 macro | Punctaj |
|---|---|
| >= 0.85 | punctaj maxim (55p) |
| < 0.65 | 0 puncte |
| între valori | punctaj proporțional |
Subtask 4 — Clusteringul este evaluat folosind Adjusted Rand Index (ARI):
| ARI | Punctaj |
|---|---|
| >= 0.9 | punctaj maxim (20p) |
| < 0.5 | 0 puncte |
| între valori | punctaj proporțional |