Magazinul regal al diamantelor
Аутор: Mihai Nan
💎 Magazinul regal al diamantelor ✨
În inima Regatului, se află Magazinul Regal al Diamantelor, unde pietre prețioase
de toate formele și mărimile sunt păstrate cu grijă.
Custodele Magazinului vrea să descopere cât de valoroase sunt diamantele sale,
în funcție de caracteristicile lor fizice și estetice, însă pergamentele cu prețuri
s-au pierdut în timp.
Pentru a-l ajuta, consiliul regal a creat o colecție de date:
train.csv– diamantele deja evaluate, cu toate caracteristicile și prețul lortest.csv– diamante noi, cu caracteristicile completate, dar fără preț
Sarcina ta este să descoperi secretele valorii diamantelor folosind analiza datelor și modele predictive.
📊 Setul de date
Fiecare rând din fișierele train.csv și test.csv reprezintă un diamant descris prin următoarele caracteristici:
- SampleID – identificator unic al diamantului
- carat – greutatea diamantului (Carat weight of the diamond)
- cut – calitatea tăieturii (
Fair,Good,Very Good,Premium,Ideal)
(quality in increasing order) - color – culoarea diamantului (
D…J), D fiind cea mai bună - clarity – claritatea diamantului (gradul incluziunilor, de la cel mai bun la cel mai rău: FL, IF, VVS1, VVS2, VS1, VS2, SI1, SI2, I1, I2, I3)
- depth – adâncimea în procente (height from culet to table / average girdle diameter)
- table – lățimea tablei în procente din diametrul mediu
- x, y, z – dimensiunile diamantului în mm (length, width, height)
- price – doar în train.csv, valoarea diamantului
📝 Task-uri
Subtask 1 (10 puncte)
Clasificați diamantele din test.csv în funcție de greutatea lor (carat):
Lightdacă carat < 0.5Mediumdacă 0.5 ≤ carat < 1.5Heavydacă carat ≥ 1.5
Subtask 2 (15 puncte)
Calculați proporția dintre depth și table pentru fiecare diamant din test:
proportie = depth / table
Subtask 3 (15 puncte)
Determinați volumul aproximativ al fiecărui diamant, utilizând pentru acest lucru formula:
volum = x * y * z
Subtask 4 (60 puncte)
Construiți o metodă capabilă să estimeze valoarea diamantului (price)
pentru fiecare diamant din test.csv.
Evaluarea finală se va face folosind MAE (Mean Absolute Error):
- MAE (cu cât mai mic, cu atât punctajul oferit o să fie mai mare)
🧮 Evaluare
Punctajul pentru ultima cerință este acordat după următoarele formule:
- MAE ≤ 260 → 60 puncte
- MAE ≥ 300 → 0 puncte
- Valori intermediare → punctaj proporțional
Pentru subtask 1, răspunsurile sunt evaluate exact.
Pentru subtask-urile 2 și 3, răspunsurile sunt evaluate pentru primele 2 zecimale.
📌 Note
- Variabilele categorice (
cut,color,clarity) pot fi convertite numeric
folosind metode la alegere (ex: LabelEncoder). - Este permisă orice tehnică de analiză și predicție.
📄 Formatul fișierului de submisie
Fișierul submission.csv trebuie să conțină câte o linie pentru fiecare rând din test
și fiecare subtask:
subtaskID datapointID answer
- subtaskID – 1, 2, 3 sau 4
- datapointID –
SampleIDdin test - answer – rezultatul calculat sau prezis
Exemplu pentru un diamant cu SampleID = 1023:
subtaskID datapointID answer
1 1023 Medium
2 1023 0.619
3 1023 0.34
4 1023 4578