הַגדָרָה
נתוני אימון של בינה מלאכותית הם מערך נתונים מתויג המשמש ללימוד מודלים של למידת מכונה כיצד לזהות דפוסים וליצור תחזיות. הוא מייצג את "האמת הבסיסית" שלפיה מודלים מתאימים את הפרמטרים הפנימיים שלהם.
מטרה
המטרה היא לספק דוגמאות המנחות אלגוריתמים ללמוד קשרים סטטיסטיים. זה מאפשר למודלים להכליל מדוגמאות לנתונים שלא נראו.
חשיבות
- איכות נתוני האימון משפיעה ישירות על דיוק המודל.
- נתונים מוטים או לא מאוזנים מייצרים מודלים לא הוגנים או לא אמינים.
- מערכי נתונים גדולים מספיק משפרים את ההכללה.
- דליפת נתוני אימון לתוך מערכי בדיקה פוגעת בהערכות.
איך זה עובד
- הגדירו את משימת החיזוי ואת דרישות מערך הנתונים.
- איסוף נתונים גולמיים רלוונטיים.
- תייג או סמן הערות לנתונים עם פלטים נכונים.
- חלוקה לקבוצות אימון, אימות ובדיקה.
- אימון המודל להתאים משקלים בהתבסס על נתוני האימון.
דוגמאות (העולם האמיתי)
- מערך נתונים של COCO: תמונות עם הערות לגילוי ופילוח.
- סריקה משותפת: מערך נתונים גדול של טקסט אינטרנט לאימון מקדים של תואר שני במשפטים.
- LibriSpeech: מערך נתונים של דיבור לאימון ASR.
מקורות / קריאה נוספת
- נתוני אימון ללמידת מכונה — IBM Research.
- ISO/IEC 23053: מסגרת למערכות בינה מלאכותית המשתמשות בלמידה אלקטרונית — ISO.
- מסגרת ניהול סיכונים של NIST לבינה מלאכותית — NIST.
- מהם נתוני אימון בלמידת מכונה – שייפ