הַגדָרָה
מודל שפה רב-מודאלי הוא הרחבה של מודלים של משפט משפטי (LLMs) שיכולה לעבד וליצור טקסט ושיטות אחרות כמו תמונות, אודיו או וידאו.
מטרה
המטרה היא ליצור מערכות בינה מלאכותית המסוגלות להבנה ואינטראקציה עשירות יותר, מעבר לטקסט טהור. מודלים אלה שימושיים לעוזרים וירטואליים, כלי נגישות ורובוטיקה.
חשיבות
- תומך בשילוב של הקשר חזותי ושמיעתי בתגובות.
- מפעיל יישומים חדשים כמו מענה חזותי לשאלות.
- יקר מבחינה חישובית ומורכב לאימון.
- משתף סיכונים של הזיות והטיה מצד בוגרי תואר ראשון במשפטים.
איך זה עובד
- איסוף מערכי נתונים רב-מודאליים גדולים (טקסט + תמונות/אודיו).
- רכבת עם שנאים המותאמים למגוון שיטות.
- יישור הטמעות בין שיטות שונות לצורך יכולת פעולה הדדית.
- כוונון עדין של משימות רב-מודאליות ספציפיות.
- פריסה לאינטראקציה רב-מודאלית בעולם האמיתי.
דוגמאות (העולם האמיתי)
- GPT-4 עם ראייה (OpenAI): מעבד טקסט ותמונות.
- פלמינגו (DeepMind): למידה במספר מצומצם של משימות רב-מודאליות.
- גוגל ג'מיני: משלב מספר שיטות להיגיון.
מקורות / קריאה נוספת
- אלאיראק ואחרים. "פלמינגו: מודל שפה חזותית". DeepMind.
- דוח טכני של OpenAI GPT-4.
- דו"ח סטנפורד CRFM על מודלים של קרנות.
- מהם מודלים רב-מודאליים גדולים (LMMs)?