Credit Card Fraud Detection - Difficulty: EASY | MLCompete

Credit Card Fraud Detection

Author: Baidoc Patric David

Easy

Your best score: N/A

Problem Description

Detectarea Fraudelor in Tranzactii cu Cardul de Credit

Scopul acestei probleme este identificarea tranzactiilor frauduloase cu cardul de credit pe baza unui set de date real, anonim. Problema reflecta un scenariu din lumea reala, unde datele sunt puternic dezechilibrate si tranzactiile frauduloase sunt rare.

Setul de date

Proiectul utilizeaza doua fisiere CSV:

train.csv - setul de date pentru antrenare
test.csv - setul de date pentru testare

Coloana	Descriere
id	Identificator unic pentru fiecare tranzactie
Time	Numarul de secunde scurse de la prima tranzactie
V1 - V28	Caracteristici anonimizate
Amount	Valoarea tranzactiei
Class	Variabila tinta (0 = tranzactie legitima, 1 = frauda)

Nota: Coloana Class este disponibila doar in train.csv.

Observatie importanta: Setul de date este sever dezechilibrat, deci accuracy nu este metrica relevanta pentru evaluarea modelelor de clasificare.

Subtask-uri

Subtask 1 - Analiza statistica a tranzactiilor (10 puncte)

Determina cate tranzactii frauduloase au Amount mai mare decat media Amount a tranzactiilor legitime.

Raspunsul este un numar intreg.

Subtask 2 - Mahalanobis Distance (10 puncte)

Evalueaza cat de "anormale" sunt tranzactiile frauduloase folosind distanta Mahalanobis, care ia in considerare toate variabilele numerice simultan (Amount + V1-V28).

Pasi sugerati:

Selecteaza toate tranzactiile frauduloase (Class = 1) din train.csv.
Calculeaza vectorul mediu si matricea de covarianta a coloanelor numerice.
Calculeaza distanta Mahalanobis pentru fiecare tranzactie.
Raporteaza media distantelor Mahalanobis, rotunjita la 2 zecimale.

Subtask 3 - Detectarea fraudei (80 puncte)

Pentru fiecare tranzactie din test.csv, prezice eticheta de frauda:

1 = frauda
0 = tranzactie legitima

Metrica principala: F1-score pe clasa 1.

F1-score	Punctaj
F1 >= 0.85	80 puncte
F1 < 0.60	0 puncte
Intermediar	Scalare liniara intre 0 si 80

Formatul fisierului de submisie

Fisierul de submisie trebuie sa fie in format CSV cu urmatoarele coloane:

Coloana	Descriere
subtaskID	Numarul subtask-ului (1, 2 sau 3)
datapointID	Identificatorul observatiei
answer	Raspunsul sau predictia

Reguli:

Subtask 1 si Subtask 2: datapointID = 1 (un singur raspuns).
Subtask 3: cate o predictie pentru fiecare tranzactie din test.csv, cu datapointID = valoarea din coloana id.

Exemplu:

Python
1subtaskID,datapointID,answer21,1,4232,1,0.2743,227846,153,227847,063,227848,0

Nota: Rezolvarea acestei probleme nu necesita utilizarea arhitecturilor de tip Transformer.

Files

Submit Solution

Upload output file and optionally source code for evaluation.

Submission File

Click to upload or drag and drop

CSV, ZIP, etc. (MAX. 100MB)

Source Code File (optional)

Click to upload or drag and drop

Archive, notebook or code file