- איסוף נתונים: האימון שלי התחיל עם מגוון רחב של טקסטים באינטרנט. עם זאת, עלי לציין שבעוד שעברתי הכשרה על מערך נתונים רחב, אני לא יודע פרטים לגבי אילו מסמכים היו חלק ממערך ההדרכה או שיש לי גישה למסמכים או מקורות ספציפיים כלשהם.
- אימון ראשוני (טרום אימון): כאן למדתי לחזות את המילה הבאה במשפט. לא התחלתי לדעת אנגלית או כל שפה אחרת. במקום זאת, על ידי חיזוי המילה הבאה במיליוני משפטים, למדתי בהדרגה על דקדוק, עובדות על העולם וכמה יכולות חשיבה. עם זאת, זה גם אומר שאולי למדתי ממידע מוטה או שגוי מכיוון שהנתונים לא סוננו היטב.
- כוונון עדין: לאחר ההכשרה הראשונית, היוצרים שלי ב-OpenAI סיפקו הדרכה נוספת עם מערך נתונים ספציפי יותר, שנוצר בעזרת סוקרים אנושיים. סוקרים אלה פועלים לפי הנחיות כדי לסקור ולדרג תפוקות מודל אפשריות עבור מגוון של תשומות לדוגמה. תהליך הכוונון הוא מעין דיאלוג בין הדוגמנית לבין הסוקרים שעוזר לי להתיישר טוב יותר עם הערכים האנושיים.
- למידה מתמשכת: למרות שאני לא לומד מאינטראקציות אינדיבידואליות מסיבות פרטיות, OpenAI עובד ללא הרף עם צוות של בודקים אנושיים כדי לספק משוב ולבצע שיפורים איטרטיביים על סמך דפוסים ותובנות רחבות יותר.
- דוגמה לפני אימון: נניח שיש לנו את המשפט, "החתול ישב על ה-__". בשלב הטרום-אימון, המודל כמוני היה לומד לחזות את המילה הבאה במשפט, שיכולה להיות "מחצלת" "גג" או "עץ". זה נלמד על ידי עיבוד מיליארדי משפטים מטקסט אינטרנטי מגוון, הכרוך בעקיפין באינטראקציה אנושית כאשר בני אדם יצרו את התוכן המקורי.
- דוגמה לכוונון עדין: לאחר שלב ההכשרה המקדים, הדגם נכנס לשלב הכוונון העדין. כך זה עשוי לעבוד:
המבקר האנושי מקבל משימה לסקור פלטי מודל אפשריים עבור קלט כמו "תרגם את הטקסט הבא באנגלית לצרפתית: 'הלו, מה שלומך?". המודל עשוי ליצור מספר תגובות כמו "Bonjour, comment ça va?" או "שלום, הערה ואס-טו?" וכו '
המבקר מדרג את התגובות הללו על סמך גורמים כמו דיוק, שטף והתאמה. דירוגים אלה מסייעים למודל להכליל ולהגיב לתשומות דומות בעתיד.
זכור, הדוגמאות המופיעות כאן מפושטות כדי להמחיש את התהליך. האימון בפועל כולל אלגוריתמים מורכבים וכמויות אדירות של נתונים.
- מגוון נתונים: לא מדובר רק בנפח הנתונים, אלא גם במגוון. הנתונים צריכים להיות מגוונים כדי לכסות מגוון רחב של נושאים, סגנונות וטונים שנמצאים בשפה האנושית.
- איכות הנתונים: איכות הנתונים המשמשים לאימון יכולה גם להשפיע על מידת היעילות של המודל לומד. נתונים באיכות טובה יותר עשויים להפחית את הנפח הנדרש לאימון יעיל.
- ארכיטקטורת מודל: גם הארכיטקטורה של המודל (כמו מספר השכבות או הפרמטרים ברשת העצבית) יכולה להשפיע על כמות הנתונים הדרושים. דגמים גדולים יותר, כמו GPT-3 או GPT-4, דורשים בדרך כלל יותר נתונים מדגמים קטנים יותר.
- מטרות האימון: סוג המשימות שהמודל נועד לבצע יכול להשפיע על כמות הנתונים הדרושה. מודל המיועד למשימה ספציפית עשוי לדרוש פחות נתונים אם הוא ממוקד היטב, בעוד שמודל לשימוש כללי כמו GPT-3 או GPT-4, שנועד להתמודד עם מגוון רחב של משימות, ידרוש יותר נתונים להבנה רחבה יותר.
במקרה של GPT-3, למשל, לדגם יש 175 מיליארד פרמטרים והוא הוכשר על מאות גיגה-בייט של טקסט. אבל הנתונים האלה לא לגמרי תופסים את מורכבות התהליך. הפרטים הספציפיים של תהליך ההדרכה, כולל הכמות המדויקת של הנתונים שבהם נעשה שימוש, הם פרטים קנייניים המוחזקים על ידי OpenAI וארגונים דומים.
- תתחיל בקטן: במיוחד עבור בעיות פשוטות או אבות טיפוס של מודל ראשוני, מערך נתונים קטן יותר יכול להתאים. לדוגמה, אם אתה בונה סיווג תמונות בסיסי, ייתכן שתתחיל עם כמה מאות או אלפי תמונות לכל קטגוריה.
- שקול את המורכבות: בעיות מורכבות יותר דורשות בדרך כלל יותר נתונים. אם אתה מפתח מודל למידה עמוקה או עובד עם בעיה מורכבת כמו עיבוד שפה טבעית, ייתכן שתזדקק למיליוני נקודות נתונים.
- איכות על פני כמות: נתונים איכותיים ורלוונטיים יכולים לרוב להיות מועילים יותר מכמות עצומה של נתונים באיכות ירודה. חשוב לוודא שהנתונים שלך מנוקים כראוי, מבוארים ומייצגים את הבעיה שאתה מנסה לפתור.
- איזון הכיתות שלך: עבור משימות למידה בפיקוח, הקפידו על איזון טוב של דוגמאות לכל כיתה. מערך נתונים לא מאוזן יכול להוביל למודל עם ביצועים גרועים במחלקות שאינן מיוצגות.
- השתמש בערכות אימות ובדיקה: יש להקדיש חלק ממערך הנתונים שלך לאימות (כוונון פרמטרים של מודל) ובדיקה (הערכת ביצועי המודל). פיצולים נפוצים עשויים להיות 70% מהנתונים עבור אימון, 15% עבור אימות ו-15% עבור בדיקות, אם כי פרופורציות אלו עשויות להשתנות.
- ניסוי וחזרה: התחל עם כמות נתונים ראשונית, אמן את המודל שלך, העריך את הביצועים שלו והוסף באופן איטרטיבי עוד נתונים, כוונן את המודל שלך או שפר את איכות הנתונים שלך על סמך התוצאות.
זכור, יותר נתונים בדרך כלל משפרים את הביצועים של מודלים של למידת מכונה, אך רק עד לנקודה מסוימת. לאחר נקודה מסוימת, איסוף יותר נתונים עשוי להיות גוזל זמן ויקר מהערך שלו, וייתכן שיהיה מועיל יותר להתמקד בשיפור איכות הנתונים שלך או בחידוד ארכיטקטורת המודל שלך.
- אימון מקדים: בשלב זה, המודל נחשף לכמות גדולה של נתוני טקסט באינטרנט. נתונים אלה אינם מובנים במפורש, אך המודל מאומן לחזות את המילה הבאה במשפט. זה נותן למודל הבנה כללית של דקדוק, עובדות על העולם וכמה יכולות חשיבה.
- כוונון עדין: לאחר אימון מקדים, המודל משוכלל עוד יותר על מערך נתונים צר יותר שנוצר בעזרת סוקרים אנושיים. סוקרים אלה פועלים לפי ההנחיות של OpenAI כדי לסקור ולדרג תפוקות מודל אפשריות עבור מגוון של תשומות. במובן זה, ניתן לראות בתהליך הכוונון העדין סוג של ביאור, שבו סוקרים אנושיים מנחים את תגובות המודל, עוזרים לו להתיישר טוב יותר עם הערכים האנושיים ומבטיחים שהוא נמנע מתוכן לא הולם או לא בטוח.
אז בעוד שמערך הנתונים הראשוני המשמש להכשרה מוקדמת אינו מוסבר במובן המסורתי, תהליך הכוונון העדין כרוך בסוג של הערה, שבה סוקרים אנושיים מנחים את התנהגות המודל על ידי דירוג פלטים שונים.
נְכוֹנוּת: סוקרים מעריכים אם הפלט של המודל נכון עובדתית.
דוגמא:
נֵאוֹתוּת: התפוקה של המודל מוערכת על התאמתו ביחס לקלט הנתון.
דוגמא:
בטיחות: הפלטים נבדקים כדי לוודא שהם אינם כוללים הוראות מזיקות או שפה פוגענית.
דוגמא:
שלמות: זה מעריך אם תגובת המודל עונה במלואה על שאילתת המשתמש.
דוגמא:
שֶׁטֶף: הסוקרים בודקים אם הפלט של המודל שוטף וקוהרנטי מבחינה לשונית.
דוגמא:
הקטגוריות הללו הן רק דוגמאות. תהליך הכוונון בפועל כולל מערכת הערכה מורכבת יותר ומשוב מתמשך בין הסוקרים וצוות פיתוח הבינה המלאכותית. מטרת ההערות הללו היא להפוך את התגובות של המודל למועילות יותר, בטוחות יותר ומתואמות עם הערכים האנושיים.
OpenAI, הארגון שעומד מאחורי ChatGPT, אינו חושף בפומבי את המספר המדויק של סוקרים המעורבים בתהליך הכוונון. עם זאת, בהתחשב בקנה המידה והמורכבות של הכשרת מודל שפה כה גדול, בטוח לומר שהתהליך כולל כנראה צוות בודקים משמעותי.
סוקרים אנושיים אלה פועלים לפי ההנחיות שסופקו על ידי OpenAI כדי לסקור ולדרג תפוקות מודל אפשריות. זהו תהליך מתמשך ואיטרטיבי שבו משתמשים במשוב של סוקרים כדי לשפר ולחדד את המודל לאורך זמן. OpenAI שומרת על לולאת משוב חזקה עם הסוקרים, כולל פגישות שבועיות כדי להתייחס לשאלות ולספק הבהרות.
- מורכבות המשימה: משימות פשוטות כמו תיוג תמונות או סיווג טקסט יידרשו פחות זמן ל-PDF, מה שיאפשר למחבר יחיד לטפל ביותר קבצים. מצד שני, משימות מורכבות כמו חילוץ ישויות מפורט או ניתוח סמנטי ידרשו יותר זמן לכל מסמך, ולכן יותר מפרשים עבור אותו נפח של קובצי PDF.
- אורך ומורכבות קובצי ה-PDF: קובץ PDF ארוך או מורכב יותר ייקח יותר זמן להערות מאשר קצר או פשוט יותר.
- דרישות איכות: אם נדרש דיוק גבוה, ייתכן שיהיה צורך להצטייד במספר הערים לכל PDF כדי לאמת הערות.
- מגבלות זמן: אם יש צורך להשלים את ההערות במהירות, יהיה צורך בנוספים נוספים.
כדוגמה היפותטית, נניח שמעריך יכול להעיר 5 קובצי PDF ליום עבור משימה מסוימת, ועובד 5 ימים בשבוע. במקרה זה, כדי להוסיף הערות ל-10,000 קובצי PDF, עורך אחד יזדקק ל-2000 ימים, או כ-8 שנים.
עם זאת, אם היה לך צוות של 20 כותבים, הם יכולים להשלים את המשימה תוך כ-5 חודשים (בהנחה של 20 ימי עבודה בחודש). עם 100 כותבים, ניתן היה להשלים את אותה משימה תוך כחודש.
זכור, המספרים הללו הם להמחשה בלבד ומהירות ההערה בפועל תהיה תלויה בגורמים שהוזכרו לעיל. בנוסף, הכשרה מתאימה של כותבים ובקרת איכות עקבית הם קריטיים להצלחתו של כל פרויקט הערות בקנה מידה גדול.