הַגדָרָה
למידה באמצעות חיזוק ממשובץ אנושי (RLHF) היא שיטה ליישור מודלים של בינה מלאכותית עם ערכים אנושיים על ידי שילוב שיפוטים אנושיים בתהליך האימון. היא משמשת לעתים קרובות לכוונון עדין של מודלים של שפה גדולה.
מטרה
המטרה היא להפוך את פלטי הבינה המלאכותית לבטוחים יותר, שימושיים יותר ומותאמים להעדפות אנושיות. RLHF משפר מערכות שיחה על ידי צמצום תגובות מזיקות, מוטות או לא רלוונטיות.
חשיבות
- מספק פיקוח אנושי על הכשרת בינה מלאכותית.
- משפר את האמינות של מערכות בינה מלאכותית.
- עתיר עבודה עקב צורכי ביאור אנושיים.
- קשור למידול העדפות ומחקר יישור.
איך זה עובד
- איסוף משוב אנושי תוך השוואת תוצאות המודל.
- לאמן מודל תגמול על סמך העדפות אנושיות.
- השתמש בלמידת חיזוקים כדי לכוונן את מודל הבסיס.
- הערכת ביצועים מול יעדי ההתאמה.
- חזר על הפעולה עם משוב נוסף.
דוגמאות (העולם האמיתי)
- OpenAI ChatGPT: כוונון עדין עם RLHF לתגובות בטוחות יותר.
- הבינה המלאכותית החוקתית של אנתרופיק: מונחית על ידי עקרונות ולא על ידי משוב ישיר.
- InstructGPT: מודל מוקדם של OpenAI המדגים RLHF.
מקורות / קריאה נוספת
- כריסטיאנו ואחרים. "למידה חיזוק עמוק מהעדפות אנושיות." NeurIPS 2017.
- מאמר InstructGPT של OpenAI.
- מסגרת ניהול סיכונים של NIST לבינה מלאכותית.
- מהי למידת חיזוק עם משוב אנושי (RLHF)?