מערכי נתונים של NLP הם עמוד השדרה של פרויקטים רבים של עיבוד שפה טבעית, ומציעים גמישות למגוון רחב של משימות כגון סיווג טקסט, ניתוח סנטימנטים ומענה על שאלות. לדוגמה, קורפוס מחברי הבלוגים מכיל למעלה מ-681,000 פוסטים בבלוג מכמעט 20,000 בלוגרים, מה שהופך אותו למשאב עשיר לחקר סגנונות כתיבה, זיהוי מחברים ועוד.
עבור אלו המתעניינים במחקר אקדמי, מערך הנתונים של arXiv Research Papers מספק גישה לאוסף עצום של מאמרים מדעיים במגוון תחומים, ותומך במשימות NLP מתקדמות כמו ניתוח ציטוטים וסיווג מסמכים. מערך הנתונים של Federal Procurement Data Center הוא משאב יקר ערך נוסף, המציע מידע מפורט על חוזים פדרליים - אידיאלי לפרויקטים הכוללים נתוני ממשלה וזיהוי ישויות.
מערכי נתונים אלה של NLP נמצאים בשימוש נרחב לאימון והערכת מודלים של למידת מכונה, ועוזרים לחוקרים ולמפתחים לשפר את ביצועי המערכות שלהם במגוון משימות NLP. בין אם אתם עובדים עם פוסטים בבלוג, מאמרי מחקר או נתונים ממשלתיים, מערכי נתונים אלה מספקים את הבסיס ליישומי NLP חזקים ורב-תכליתיים.
מה זה NLP?
NLP (עיבוד שפה טבעית) עוזר למחשבים להבין את השפה האנושית. זה כמו ללמד מחשבים לקרוא, להבין ולהגיב לטקסט ולדיבור כמו שבני אדם עושים.
מה NLP יכול לעשות?
- הפוך טקסט מבולגן לנתונים מסודרים
- הבן אם ההערות הן חיוביות או שליליות
- תרגם בין שפות
- צור סיכומים של טקסטים ארוכים
- ועוד הרבה!
- תחילת העבודה עם NLP:
כדי לבנות מערכות NLP טובות, אתה צריך הרבה דוגמאות כדי לאמן אותן - בדיוק כמו איך בני אדם לומדים טוב יותר עם יותר תרגול. החדשות הטובות הן שישנם משאבים רבים בחינם שבהם תוכלו למצוא את הדוגמאות הבאות: פנים מחבקות, קגל ו GitHub. ניתן לגשת בקלות למערכי נתונים מפלטפורמות אלו, מה שמאיץ את פיתוח פרויקטי NLP.
גודל וצמיחה של שוק NLP:
נכון לשנת 2023, שוק עיבוד השפה הטבעית (NLP) הוערך בכ-26 מיליארד דולר. הוא צפוי לגדול באופן משמעותי, עם שיעור צמיחה שנתי מורכב (CAGR) של כ-30% מ-2023 עד 2030. צמיחה זו מונעת מהביקוש הגובר ליישומי NLP בתעשיות כמו בריאות, פיננסים ושירות לקוחות.
כיצד לבחור מערך נתונים טוב של NLP, שקול את הגורמים הבאים:
- רלוונטי: ודא שמערך הנתונים מיושר עם המשימה או הדומיין הספציפיים שלך.
- מידה: מערכי נתונים גדולים יותר משפרים בדרך כלל את ביצועי המודל, אך מאזנים בין גודל לאיכות.
- גיוון: חפש מערכי נתונים עם סגנונות שפה והקשרים מגוונים כדי לשפר את חוסן המודל.
- איכות: בדוק אם יש נתונים מסומנים היטב ומדויקים כדי להימנע מהכנסת שגיאות.
- נגישות: ודא שמערך הנתונים זמין לשימוש ושקול מגבלות רישוי כלשהן.
- עיבוד מוקדם: קבע אם מערך הנתונים דורש ניקוי משמעותי או עיבוד מוקדם.
- תמיכת קהילה: למערכי נתונים פופולריים יש לעתים קרובות יותר משאבים ותמיכה קהילתית, מה שיכול להועיל.
על ידי הערכת גורמים אלה, תוכלו לבחור מערך נתונים המתאים ביותר לצורכי הפרויקט שלכם. בחירת מערכי הנתונים הנכונים חיונית להשגת תוצאות אופטימליות בפרויקטים של NLP, מכיוון שהם משפיעים ישירות על ביצועי המודל ויעילות האימון.
33 ערכי נתונים פתוחים שחובה לראות עבור NLP
כללי
ה- Spambase של UCI (קישור)
ל-Spambase, שנוצר במעבדות Hewlett-Packard, יש אוסף של הודעות דואר זבל על ידי המשתמשים, במטרה לפתח מסנן ספאם מותאם אישית. יש לו יותר מ-4600 תצפיות מהודעות דואר אלקטרוני, מתוכן קרוב ל-1820 הן דואר זבל.
מערך הנתונים של אנרון (קישור)
מערך הנתונים של אנרון מכיל אוסף עצום של מיילים אנונימיים "אמיתיים" הזמינים לציבור לאימון מודלי למידת מכונה. הוא מתגאה ביותר מחצי מיליון מיילים מיותר מ-150 משתמשים, בעיקר מההנהלה הבכירה של אנרון. מערך נתונים זה זמין לשימוש הן בפורמטים מובנים והן בפורמטים לא מובנים. כדי לשפר את הנתונים הלא מובנים, יש ליישם טכניקות עיבוד נתונים.
מערך הנתונים של מערכות ממליץ (קישור)
מערך הנתונים של מערכת ההמלצות הוא אוסף עצום של מערכי נתונים שונים המכילים תכונות שונות כגון,
- ביקורות מוצר
- דירוגי כוכבים
- מעקב אחר כושר
- נתוני שירים
- רשתות חברתיות
- חותמות זמן
- אינטראקציות בין משתמש/פריט
- נתוני GPS
פן טריבנק (קישור)
קורפוס זה, מהוול סטריט ג'ורנל, פופולרי לבדיקת מודלים של תיוג רצף.
NLTK (קישור)
ספריית פייתון זו מספקת גישה ליותר מ-100 קורפוסים ומשאבים לקסיקליים עבור NLP. היא כוללת גם את ספר NLTK, קורס הדרכה לשימוש בספרייה. NLTK כולל גישה ל-WordNet, מסד נתונים לקסיקלי גדול של אנגלית, שבו מילים כגון שמות עצם, פעלים, תארים ותואר פועל מקובצות לסינסטים המבוססים על משמעויות משותפות. NLTK מספקת גם רשימה מפורטת של קורפוסים ומשאבים לקסיקליים למחקר NLP.
תלות אוניברסלית (קישור)
UD מספק דרך עקבית להערות דקדוק, עם משאבים בלמעלה מ-100 שפות, 200 גדות עצים ותמיכה של למעלה מ-300 חברי קהילה.
מערכי נתונים של ניתוח סנטימנטים
מילונים לסרטים ולפיננסים (קישור)
מערך הנתונים של מילונים לסרטים ופיננסים מספק מילונים ספציפיים לתחום עבור קוטביות חיובית או שלילית במילוי פיננסי ובביקורות סרטים. מילונים אלו לקוחים ממילוי IMDb ו-US Form-8.סנטימנט 140 (קישור)
ל-Sentiment 140 יש יותר מ-160,000 ציוצים עם אמוטיקונים שונים המסווגים ב-6 שדות שונים: תאריך ציוץ, קוטביות, טקסט, שם משתמש, מזהה ושאילתה. מערך נתונים זה מאפשר לך לגלות את הסנטימנט של מותג, מוצר או אפילו נושא המבוסס על פעילות טוויטר. מכיוון שמערך נתונים זה נוצר באופן אוטומטי, בניגוד לציוצים אחרים עם הערות אנושיות, הוא מסווג ציוצים עם רגשות חיוביים ורגשות שליליים כלא חיוביים.
מערך נתונים של סנטימנטים מרובי דומיינים (קישור)
מערך הנתונים הסנטימנטים הרב-דומיינים הזה הוא מאגר של ביקורות של אמזון עבור מוצרים שונים. לחלק מקטגוריות המוצרים, כמו ספרים, יש ביקורות מגיעות לאלפים, בעוד שלאחרות יש רק כמה מאות ביקורות. חוץ מזה, ניתן להמיר את הביקורות עם דירוגי כוכבים לתוויות בינאריות.
סטנדפורד סנטימנט TreeBank (קישור)
מערך הנתונים של NLP זה מבית Rotten Tomatoes כולל ביטויים ארוכים יותר ודוגמאות טקסט מפורטות יותר.
קורפוס מחבר הבלוג (קישור)
באוסף זה יש פוסטים בבלוג עם כמעט 1.4 מיליון מילים, כל בלוג הוא מערך נתונים נפרד.
מערך נתונים של OpinRank (קישור)
300,000 חוות דעת מאדמונדס ו-TripAdvisor, מאורגנות לפי דגם רכב או יעד נסיעה ומלון.
ערכת נתונים של טקסט
קורפוס ה-Wiki QA (קישור)
ה-Wiki QA Corpus נוצר כדי לסייע במחקר של שאלות ותשובות בדומיין פתוח, והוא אחד ממערכי הנתונים הנרחבים ביותר הזמינים לציבור. הוא מורכב מיומני השאילתות של מנוע החיפוש של Bing, והוא מגיע עם צמדי שאלות ותשובות. יש לו יותר מ-3000 שאלות ו-1500 משפטי תשובות מסומנים.
מערך נתונים של דוחות תיקים משפטיים (קישור)
למערך הנתונים של Legal Case Reports יש אוסף של 4000 מקרים משפטיים וניתן להשתמש בהם כדי להכשיר סיכום טקסט אוטומטי וניתוח ציטוטים. נעשה שימוש בכל מסמך, ביטויים, כיתות ציטוט, ביטויי ציטוט ועוד.
סכנה (קישור)
מערך הנתונים של Jeopardy הוא אוסף של יותר מ-200,000 שאלות המופיעות בתוכנית הטלוויזיה הפופולרית בחידונים שהורכבה על ידי משתמש Reddit. כל נקודת נתונים מסווגת לפי תאריך שידורה, מספר פרק, ערך, סיבוב ושאלה/תשובה.
20 קבוצות דיון (קישור)
אוסף של 20,000 מסמכים מקיף 20 קבוצות דיון ונושאים, המפרטים נושאים מדת ועד ספורט פופולרי.
מערך נתונים של חדשות רויטרס (קישור)
מערך נתונים זה, שהופיע לראשונה בשנת 1987, סומן, הוכנס לאינדקס והידור למטרות למידת מכונה.
ArXiv (קישור)
מערך נתונים משמעותי זה של 270 GB כולל את הטקסט המלא של כל מאמרי המחקר של arXiv.
קורפוס מקביל של הפרלמנט האירופי (קישור)
צמדי משפטים מהליכי הפרלמנט כוללים ערכים מ-21 שפות אירופאיות, הכוללות כמה שפות פחות נפוצות עבור קורפוסי למידת מכונה.
אמת מידה של מיליארד מילים (קישור)
נגזר מ-WMT 2011 News Crawl, מערך הנתונים של דוגמנות השפה הזה כולל כמעט מיליארד מילים לבדיקת טכניקות חדשניות של מודלים לשפות.
מערכי נתונים של דיבור שמע
קורפורה של ויקיפדיה מדוברת (קישור)
מערך הנתונים הזה מושלם לכל מי שמחפש לחרוג מהשפה האנגלית. מערך נתונים זה כולל אוסף מאמרים המדוברים בהולנדית ובגרמנית ובאנגלית. יש לו מגוון רחב של נושאים ומערכות רמקולים שנמשכים מאות שעות.2000 HUB5 אנגלית (קישור)
מערך הנתונים האנגלי HUB2000 5 כולל 40 תמלול שיחות טלפון בשפה האנגלית. הנתונים מסופקים על ידי המכון הלאומי לתקנים וטכנולוגיה, וההתמקדות העיקרית שלו היא בזיהוי דיבור בשיחה והמרת דיבור לטקסט.
LibriSpeech (קישור)
מערך הנתונים של LibriSpeech הוא אוסף של כמעט 1000 שעות של דיבור באנגלית שנלקח ומפולח כראוי לפי נושאים לפרקים מתוך ספרי אודיו, מה שהופך אותו לכלי מושלם לעיבוד שפה טבעית.
ערכת נתונים ספרות מדוברת בחינם (קישור)
מערך הנתונים של NLP זה כולל יותר מ-1,500 הקלטות של ספרות מדוברות באנגלית.
M-AI Labs Speech Dataset (קישור)
מערך הנתונים מציע כמעט 1,000 שעות של אודיו עם תמלולים, מקיף שפות מרובות ומסווג לפי קולות זכר, נקבה ומעורב.
מסד נתונים של דיבור רועש (קישור)
מערך נתונים זה כולל הקלטות דיבור רועשות ונקיות במקביל, המיועדות לפיתוח תוכנה לשיפור דיבור אך גם מועילה לאימון על דיבור בתנאים מאתגרים.
מערכי נתונים של ביקורות
ביקורות Yelp (קישור)
למערך הנתונים של Yelp יש אוסף עצום של כ-8.5 מיליון ביקורות של יותר מ-160,000 עסקים, ביקורות שלהם ונתוני משתמשים. ניתן להשתמש בביקורות כדי לאמן את המודלים שלך בניתוח סנטימנטים. חוץ מזה, מערך הנתונים הזה כולל גם יותר מ-200,000 תמונות המכסות שמונה מיקומים מטרופולינים.
ביקורות IMDB (קישור)
ביקורות IMDB הן בין מערכי הנתונים הפופולריים ביותר המכילים מידע על השחקנים, דירוגים, תיאור וז'אנר של יותר מ-50 אלף סרטים. ניתן להשתמש במערך נתונים זה כדי לבדוק ולהכשיר את המודלים של למידת מכונה שלך.
ערכת נתונים של ביקורות ודירוגים של אמזון (קישור)
מערך הסקירה והדירוג של אמזון מכילים אוסף רב ערך של מטא נתונים וסקירות של מוצרים שונים מאמזון שנאספו מ-1996 עד 2014 - כ-142.8 מיליון רשומות. המטא נתונים כוללים את המחיר, תיאור המוצר, המותג, הקטגוריה ועוד, בעוד שלביקורות יש איכות טקסט, שימושיות הטקסט, דירוגים ועוד.
מערכי נתונים של שאלות ותשובות
סטנפורד שאלות ותשובות נתונים (SQuAD) (קישור)
מערך הנתונים של הבנת הנקרא הזה כולל 100,000 שאלות הניתנות לתשובה ו-50,000 שאלות בלתי ניתנות לתשובה, כולן נוצרו על ידי עובדי המונים בוויקיפדיה.
שאלות טבעיות (קישור)
ערכת הדרכה זו כוללת למעלה מ-300,000 דוגמאות הדרכה, 7,800 דוגמאות פיתוח ו-7,800 דוגמאות מבחנים, כל אחת עם שאילתת גוגל ודף תואם של ויקיפדיה.
TriviaQA (קישור)
מערך השאלות המאתגר הזה כולל 950,000 צמדי QA, כולל קבוצות משנה מאומתות על ידי אדם והן שנוצרו על ידי מכונה.
CLEVR (שפה קומפוזיציונית ונימק חזותי יסודי) (קישור)
מערך התשובות לשאלות חזותיות זה כולל אובייקטים מעובדים בתלת-ממד ואלפי שאלות עם פרטים על הסצנה החזותית.
אז באיזה מערך נתונים בחרת לאמן את מודל למידת המכונה שלך?
תוך כדי, נשאיר אותך עם א בעד טיפ.
הקפד לעבור ביסודיות על קובץ README לפני בחירת מערך נתונים של NLP לצרכים שלך. מערך הנתונים יכיל את כל המידע הדרוש לך, כגון תוכן מערך הנתונים, הפרמטרים השונים שעל פיהם סווגו הנתונים ומקרי השימוש הסבירים במערך הנתונים.
ללא קשר לדגמים שאתה בונה, יש סיכוי מרגש לשלב את המכונות שלנו באופן הדוק יותר ומהותי יותר בחיינו. עם NLP, האפשרויות לעסקים, סרטים, זיהוי דיבור, פיננסים ועוד גדלות רבות.