Bank Marketing
Author: Stupariu Teodor-Mihai
Bank Marketing
Descriere
Pe fondul incertitudinilor legate de inflație, o instituție bancară desfășoară o campanie de marketing telefonic pentru a convinge clienții să deschidă depozite la termen. După un lung program de promovare, compania dorește să evalueze eficiența campaniei. Setul de date conține informații despre clienți, caracteristici demografice și detalii despre apelurile realizate în cadrul campaniei de marketing. Scopul problemei este analiza acestor date și rezolvarea mai multor subtask-uri legate de comportamentul clienților.
Date de intrare
Participanții primesc trei fișiere:
- train.csv — Setul de date pentru antrenare. Conține toate variabilele, inclusiv variabila țintă
deposit. - test.csv — Setul de date pentru testare. Conține aceleași variabile ca train.csv, dar fără coloana
deposit. - sample_output.csv — Un fișier a cărui structură seamănă cu cea a submisiei ce trebuie trimisă. Acesta ia 0 puncte.
Descrierea coloanelor
| Coloană | Descriere |
|---|---|
id | id-ul |
age | vârsta clientului |
job | ocupația clientului |
marital | starea civilă |
education | nivel educațional |
default | dacă clientul a intrat în default vreodată |
balance | soldul contului |
housing | dacă clientul are credit ipotecar |
loan | dacă clientul are credit personal |
contact | tipul de contact |
day | ziua apelului |
month | luna apelului |
duration | durata apelului |
campaign | numărul apelurilor din campanie |
pdays | numărul de zile de la ultima campanie |
previous | numărul contactelor anterioare |
poutcome | rezultatul campaniei anterioare |
deposit | variabila țintă: dacă clientul a deschis un depozit |
Cerințe
Problema este împărțită în patru subtask-uri.
Subtask 1 (10 puncte)
Determinați ocupația (job) cu cea mai mare rată de depozit.
Rata de depozit reprezintă proporția clienților pentru care deposit = 1 din totalul clienților cu acea meserie.
Output: ocupația.
Subtask 2 (15 puncte)
Determinați luna (month) în care a fost contactat telefonic cel mai mare număr de clienți din setul de date de antrenare.
Output: numele lunii.
Subtask 3 (55 puncte)
Construiți un model de clasificare binară care prezice variabila deposit.
Modelul trebuie antrenat folosind train.csv și trebuie să genereze predicții pentru test.csv.
Subtask 4 (20 puncte)
Grupați clienții din test.csv în două clustere pe baza variabilelor numerice și returnați pentru fiecare client eticheta clusterului din care face parte.
Formatul fișierului de output
Soluția trebuie să genereze un fișier submission.csv cu următoarea structură:
subtaskID,datapointID,answer
1,1,management
2,1,jan
3,5686,0
3,5206,1
...
4,5686,1
4,5206,0
...
Explicații:
- Pentru Subtaskurile 1 și 2, coloana
datapointIDva avea valoarea1. - Pentru Subtaskurile 3 și 4, coloana
datapointIDva avea valoareaiddin test.csv.
Evaluare
Subtask 1 — Verificare exactă a răspunsului.
Subtask 2 — Verificare exactă a răspunsului.
Subtask 3 — Clasificarea este evaluată folosind F1 macro:
| F1 macro | Punctaj |
|---|---|
| >= 0.85 | punctaj maxim (55p) |
| < 0.65 | 0 puncte |
| între valori | punctaj proporțional |
Subtask 4 — Clusteringul este evaluat folosind Adjusted Rand Index (ARI):
| ARI | Punctaj |
|---|---|
| >= 0.9 | punctaj maxim (20p) |
| < 0.5 | 0 puncte |
| între valori | punctaj proporțional |