מערכת החדשות - רמת קושי: MEDIUM

תיאור הבעיה

סיפור

מערכת של סוכנות עיתונות בינלאומית מנהלת מדי יום אלפי מאמרים המגיעים מתחומים מגוונים: כלכלה, פוליטיקה, מדע, טכנולוגיה וסביבה. כדי לוכל לארכב ולהפיץ במהירות את המידע, כל מאמר צריך להיות מסווג לקטגוריה נושאית.

בגלל תקלה טכנית, התוויות של מאמרים אחרונים אבדו. המערכת פונה אליך כדי לבנות מערכת חכמה שתוכל לסווג אוטומטית מאמרי חדשות על בסיס התוכן שלהם.

דרישה

ניתנים שני קבצי קלט:

train.csv – מכיל מאמרי חדשות שהקטגוריה שלהם ידועה
test.csv – מכיל מאמרי חדשות ללא קטגוריה

כל מאמר מזוהה באמצעות id ייחודי ויש לו טקסט משויך.
באמצעות הנתונים מ-train.csv, עליך לבנות מודל סיווג שיחזה את התווית (label) של כל מאמר ב-test.csv.

התוצאה תישמר בקובץ submission.csv.

פורמט הקבצים

`train.csv`

מכיל את העמודות הבאות:

id – מזהה ייחודי של המאמר (string, לדוגמה 000001)
text – תוכן המאמר
label – קטגוריית המאמר (מספר שלם)

דוגמה:

Python
1id,text,label2000001,"Wall St. Bears Claw Back Into the Black (Reuters)...",23000002,"Carlyle Looks Toward Commercial Aerospace (Reuters)...",24000003,"Oil and Economy Cloud Stocks' Outlook (Reuters)...",2

`test.csv`

מכיל את העמודות הבאות:

id – מזהה ייחודי
text – תוכן המאמר

דוגמה:

Python
1id,text2120001,"Fears for T N pension after talks Unions represent..."3120002,"The Race is On: Second Private Team Sets Launch..."4120003,"Ky. Company Wins Grant to Study Peptides (AP)..."

`submission.csv`

הקובץ שנוצר להגשה צריך להיות בפורמט csv ולהכיל את הבאים:

id – מזהה המאמר
label – הקטגוריה החזויה

דוגמה:

Python
1id,label2120001,23120002,34120003,3

הערות

התוויות הן ערכים מספריים שלמים, והמשמעות שלהן צריכה להיות מופקת אך ורק מ-train.csv.
מותרות כל שיטות עיבוד שפה טבעית ולמידת מכונה.
הערכת הפתרונות נעשית על בסיס דיוק החיזויים.

הערכה

החיזויים יושוו עם התוויות האמיתיות ויחושב הדיוק:

1accuracy = (מספר_חיזויים_נכונים / מספר_חיזויים_כולל)

הציון הסופי מחושב על בסיס הדיוק שהושג באמצעות הכללים הבאים:

accuracy ≥ 0.98 → 100 נקודות
accuracy ≤ 0.9 → 0 נקודות
עבור ערכי ביניים ניתן ציון פרופורציונלי בין 0 ל-100.

קבצים

הורד קבצי בעיה

הגש פתרון

העלו את קובץ התוצאות ידנית. אפשר לצרף גם את קוד המקור.עד 100MB בסך הכול

קובץ הגשה

לחץ להעלאה או גרור ושחרר

CSV, ZIP וכו' (מקסימום 100MB)

קובץ קוד מקור (אופציונלי)

לחץ להעלאה או גרור ושחרר

ארכיון, מחברת או קובץ קוד

התחבר כדי להעלות הגשה.

או

עבודה והגשה מ-Google Colab

פתחו מחברת שהוכנה לבעיה הזו. התא הראשון מחבר את הבעיה ומוריד את הנתונים הזמינים; כשתסיימו, שלחו את הקבצים להערכה ישירות מהמחברת.

הגשות מ-Colab משתמשות באותו מעריך ובאותן מגבלות. אפשר לעקוב אחר התוצאה ב״ההגשות שלי״.

MLCompete יכול לגשת רק למחברת שהוא יוצר ב-Google Drive, ולא לקבצים האחרים שלכם.

לא נפתח? השתמשו בקוד זמני

צרו את הקוד כאן, פתחו את המחברת הציבורית והזינו אותו כשהתא הראשון מבקש.

התחברו תחילה ל-MLCompete כדי ליצור קוד סביבת עבודה.

פתיחת המחברת הציבורית ב-Colab

הדביקו את קוד סביבת העבודה רק כשהמחברת מבקשת אותו. לעולם אל תשתפו אותו עם אחרים.