הַגדָרָה
איסוף נתוני טקסט הוא תהליך של איסוף שפה כתובה ממקורות כמו ספרים, אתרי אינטרנט או יומני צ'אט לשימוש באימון בינה מלאכותית.
מטרה
המטרה היא ליצור קורפוסים לפיתוח NLP ו-LLM.
חשיבות
- מספק חומר גלם למודלים של שפה.
- מעלה סוגיות של זכויות יוצרים ורישוי.
- גיוון נתונים משפיע על הוגנות ודיוק.
- יש לסנן תוכן מזיק או לא רלוונטי.
איך זה עובד
- זיהוי מקורות טקסט (אינטרנט, מסמכים, תמלולים).
- סריקה או גרידה של טקסט עם הרשאה.
- ניקוי ונרמול של תוכן.
- אחסן עם מטא-דאטה לצורך מעקב.
- השתמשו בו לפני אימון או כוונון עדין.
דוגמאות (העולם האמיתי)
- סריקה משותפת: קורפוס אינטרנט גדול.
- ויקיפדיה dumps: מערך נתונים של טקסט מובנה.
- BooksCorpus: משמש לאימון BERT.
מקורות / קריאה נוספת
- קרן זחילה משותפת.
- יוראפסקי ומרטין. עיבוד דיבור ושפה.
- ISO/IEC TR 20547-5: ארכיטקטורת ייחוס של ביג דאטה.
- איסוף נתוני טקסט ספציפי לאותיות