הַגדָרָה
מודל שפה גדול (LLM) הוא רשת נוירונים המאומנת על מאגרים עצומים של טקסטים כדי להבין וליצור שפה אנושית. מודלים של שפה גדולה משתמשים במיליארדי פרמטרים כדי ללכוד דפוסים לשוניים.
מטרה
המטרה היא לאפשר משימות NLP מתקדמות כגון יצירת טקסט, סיכום ותרגום. תוכניות לימודי משפטים (LLM) משמשות בצ'אטבוטים, חיפוש וכלי פרודוקטיביות.
חשיבות
- מפעיל בינה מלאכותית שיחתית מודרנית.
- סיכון להטיה, מידע שגוי והזיות.
- עלויות חישוביות וסביבתיות גבוהות.
- דורש יישור וניהול קפדניים.
איך זה עובד
- איסוף מערכי נתונים טקסטואליים בקנה מידה גדול.
- הפיכת טקסט לייצוגים מספריים.
- מודלים של שנאי רכבת עם מיליארדי פרמטרים.
- למד לחזות את האסימון הבא בהקשר.
- כוונון עדין או התאמה למשימות בהמשך.
דוגמאות (העולם האמיתי)
- GPT-4 (OpenAI): משמש ב-ChatGPT.
- PaLM (גוגל): תואר ראשון במשפטים בקנה מידה גדול למחקר ומוצרים.
- LLaMA (Meta): תואר ראשון במשפטים (LLM) המתמקד במחקר פתוח.
מקורות / קריאה נוספת
- ואסוואני ואחרים. "תשומת לב היא כל מה שאתה צריך." NeurIPS 2017.
- כרטיס מערכת OpenAI GPT-4.
- סטנפורד CRFM. "מודלים של הקרן".
- כל מה שאתה צריך לדעת על LLM
