Autor: Baidoc Patric David
Scopul acestei probleme este identificarea tranzactiilor frauduloase cu cardul de credit pe baza unui set de date real, anonim. Problema reflecta un scenariu din lumea reala, unde datele sunt puternic dezechilibrate si tranzactiile frauduloase sunt rare.
Proiectul utilizeaza doua fisiere CSV:
train.csv - setul de date pentru antrenaretest.csv - setul de date pentru testare| Coloana | Descriere |
|---|---|
| id | Identificator unic pentru fiecare tranzactie |
| Time | Numarul de secunde scurse de la prima tranzactie |
| V1 - V28 | Caracteristici anonimizate |
| Amount | Valoarea tranzactiei |
| Class | Variabila tinta (0 = tranzactie legitima, 1 = frauda) |
Nota: Coloana Class este disponibila doar in train.csv.
Observatie importanta: Setul de date este sever dezechilibrat, deci accuracy nu este metrica relevanta pentru evaluarea modelelor de clasificare.
Determina cate tranzactii frauduloase au Amount mai mare decat media Amount a tranzactiilor legitime.
Raspunsul este un numar intreg.
Evalueaza cat de "anormale" sunt tranzactiile frauduloase folosind distanta Mahalanobis, care ia in considerare toate variabilele numerice simultan (Amount + V1-V28).
Pasi sugerati:
Class = 1) din train.csv.Pentru fiecare tranzactie din test.csv, prezice eticheta de frauda:
1 = frauda0 = tranzactie legitimaMetrica principala: F1-score pe clasa 1.
| F1-score | Punctaj |
|---|---|
| F1 >= 0.85 | 80 puncte |
| F1 < 0.60 | 0 puncte |
| Intermediar | Scalare liniara intre 0 si 80 |
Fisierul de submisie trebuie sa fie in format CSV cu urmatoarele coloane:
| Coloana | Descriere |
|---|---|
| subtaskID | Numarul subtask-ului (1, 2 sau 3) |
| datapointID | Identificatorul observatiei |
| answer | Raspunsul sau predictia |
Reguli:
datapointID = 1 (un singur raspuns).test.csv, cu datapointID = valoarea din coloana id.Exemplu:
subtaskID,datapointID,answer
1,1,42
2,1,0.27
3,227846,1
3,227847,0
3,227848,0
Nota: Rezolvarea acestei probleme nu necesita utilizarea arhitecturilor de tip Transformer.