Bank Marketing

Autor: Stupariu Teodor-Mihai

Ușor

Maximul tău: N/A

Descrierea problemei

Bank Marketing

Descriere

Pe fondul incertitudinilor legate de inflație, o instituție bancară desfășoară o campanie de marketing telefonic pentru a convinge clienții să deschidă depozite la termen. După un lung program de promovare, compania dorește să evalueze eficiența campaniei. Setul de date conține informații despre clienți, caracteristici demografice și detalii despre apelurile realizate în cadrul campaniei de marketing. Scopul problemei este analiza acestor date și rezolvarea mai multor subtask-uri legate de comportamentul clienților.

Date de intrare

Participanții primesc trei fișiere:

train.csv — Setul de date pentru antrenare. Conține toate variabilele, inclusiv variabila țintă deposit.
test.csv — Setul de date pentru testare. Conține aceleași variabile ca train.csv, dar fără coloana deposit.
sample_output.csv — Un fișier a cărui structură seamănă cu cea a submisiei ce trebuie trimisă. Acesta ia 0 puncte.

Descrierea coloanelor

Coloană	Descriere
`id`	id-ul
`age`	vârsta clientului
`job`	ocupația clientului
`marital`	starea civilă
`education`	nivel educațional
`default`	dacă clientul a intrat în default vreodată
`balance`	soldul contului
`housing`	dacă clientul are credit ipotecar
`loan`	dacă clientul are credit personal
`contact`	tipul de contact
`day`	ziua apelului
`month`	luna apelului
`duration`	durata apelului
`campaign`	numărul apelurilor din campanie
`pdays`	numărul de zile de la ultima campanie
`previous`	numărul contactelor anterioare
`poutcome`	rezultatul campaniei anterioare
`deposit`	variabila țintă: dacă clientul a deschis un depozit

Cerințe

Problema este împărțită în patru subtask-uri.

Subtask 1 (10 puncte)

Determinați ocupația (job) cu cea mai mare rată de depozit.

Rata de depozit reprezintă proporția clienților pentru care deposit = 1 din totalul clienților cu acea meserie.

Output: ocupația.

Subtask 2 (15 puncte)

Determinați luna (month) în care a fost contactat telefonic cel mai mare număr de clienți din setul de date de antrenare.

Output: numele lunii.

Subtask 3 (55 puncte)

Construiți un model de clasificare binară care prezice variabila deposit.

Modelul trebuie antrenat folosind train.csv și trebuie să genereze predicții pentru test.csv.

Subtask 4 (20 puncte)

Grupați clienții din test.csv în două clustere pe baza variabilelor numerice și returnați pentru fiecare client eticheta clusterului din care face parte.

Formatul fișierului de output

Soluția trebuie să genereze un fișier submission.csv cu următoarea structură:

subtaskID,datapointID,answer
1,1,management
2,1,jan
3,5686,0
3,5206,1
...
4,5686,1
4,5206,0
...

Explicații:

Pentru Subtaskurile 1 și 2, coloana datapointID va avea valoarea 1.
Pentru Subtaskurile 3 și 4, coloana datapointID va avea valoarea id din test.csv.

Evaluare

Subtask 1 — Verificare exactă a răspunsului.

Subtask 2 — Verificare exactă a răspunsului.

Subtask 3 — Clasificarea este evaluată folosind F1 macro:

F1 macro	Punctaj
>= 0.85	punctaj maxim (55p)
< 0.65	0 puncte
între valori	punctaj proporțional

Subtask 4 — Clusteringul este evaluat folosind Adjusted Rand Index (ARI):

ARI	Punctaj
>= 0.9	punctaj maxim (20p)
< 0.5	0 puncte
între valori	punctaj proporțional

Fișiere

Trimite soluția

Încarcă fișierul de ieșire și opțional codul sursă pentru evaluare.

Fișier trimitere

Apasă pentru a încărca sau trage și plasează

CSV, ZIP, etc. (MAX. 25MB)

Fișier cod sursă (opțional)

Apasă pentru a încărca sau trage și plasează

Arhivă, notebook sau fișier de cod

Autentifică-te pentru a încărca o trimitere.