ערכת נתונים NLP עבור ML

15 מערכי הנתונים הטובים ביותר של NLP להכשרת מודלים לעיבוד שפה טבעית

עיבוד שפה טבעית הוא חלק חיוני בשריון למידת המכונה. עם זאת, הוא זקוק לכמויות אדירות של נתונים והדרכה כדי שהמודל יעבוד היטב. אחת הבעיות המשמעותיות ב-NLP היא היעדר מערכי נתונים להדרכה שיכולים לכסות תחומי עניין נרחבים בתחום.

אם אתה מתחיל בתחום העצום הזה, אתה עשוי למצוא את זה מאתגר וכמעט מיותר ליצור את מערכי הנתונים שלך. במיוחד כשיש איכות NLP מערכי נתונים זמינים להכשרת מודלים של למידת מכונה שלך בהתבסס על מטרתם.

שוק ה-NLP אמור לצמוח ב-CAGR של 11.7% במהלך 2018 ו-2026 כדי להגיע 28.6 מיליארד דולר עד 2026. הודות לביקוש ההולך וגובר ל-NLP ולמידת מכונה, ניתן כעת לשים את ידך על מערכי נתונים איכותיים המספקים ניתוח סנטימנטים, ביקורות, ניתוח שאלות ותשובות ומערכי נתונים של ניתוח דיבור.

מערכי הנתונים של NLP ללמידת מכונה שאתה יכול לסמוך עליהם

מאז אינספור מערכי נתונים - המתמקדים בצרכים שונים - יוצאים כמעט מדי יום, זה יכול להיות מאתגר לגשת למערכי נתונים איכותיים, אמינים וטובים ביותר. כאן, הפכנו את העבודה לקלה יותר עבורך, מכיוון שהצגנו לך מערכי נתונים מאוצרים המופרדים על סמך הקטגוריות שהם משרתים.

כללי

ל-Spambase, שנוצר במעבדות Hewlett-Packard, יש אוסף של הודעות דואר זבל על ידי המשתמשים, במטרה לפתח מסנן ספאם מותאם אישית. יש לו יותר מ-4600 תצפיות מהודעות דואר אלקטרוני, מתוכן קרוב ל-1820 הן דואר זבל.

למערך הנתונים של אנרון יש אוסף עצום של הודעות דוא"ל 'אמיתיות' אנונימיות הזמינות לציבור כדי להכשיר את מודל למידת המכונה שלהם. הוא מתהדר ביותר מחצי מיליון אימיילים מלמעלה מ-150 משתמשים, בעיקר ההנהלה הבכירה של אנרון. מערך נתונים זה זמין לשימוש בפורמטים מובנים ובלתי מובנים כאחד. כדי לשפר את הנתונים הלא מובנים, עליך ליישם טכניקות עיבוד נתונים.

  • מערך הנתונים של מערכות ממליץ (קישור)

מערך הנתונים של מערכת ההמלצות הוא אוסף עצום של מערכי נתונים שונים המכילים תכונות שונות כגון,

  • ביקורות מוצר
  • דירוגי כוכבים
  • מעקב אחר כושר
  • נתוני שירים
  • רשתות חברתיות
  • חותמות זמן
  • אינטראקציות בין משתמש/פריט
  • נתוני GPS

ניתוח הסנטימנט

ניתוח הסנטימנט
מערך הנתונים של מילונים לסרטים ופיננסים מספק מילונים ספציפיים לתחום עבור קוטביות חיובית או שלילית במילוי פיננסי ובביקורות סרטים. מילונים אלו לקוחים ממילוי IMDb ו-US Form-8.

ל-Sentiment 140 יש יותר מ-160,000 ציוצים עם אמוטיקונים שונים המסווגים ב-6 שדות שונים: תאריך ציוץ, קוטביות, טקסט, שם משתמש, מזהה ושאילתה. מערך נתונים זה מאפשר לך לגלות את הסנטימנט של מותג, מוצר או אפילו נושא המבוסס על פעילות טוויטר. מכיוון שמערך נתונים זה נוצר באופן אוטומטי, בניגוד לציוצים אחרים עם הערות אנושיות, הוא מסווג ציוצים עם רגשות חיוביים ורגשות שליליים כלא חיוביים.

  • מערך נתונים של סנטימנטים מרובי דומיינים (קישור)

מערך הנתונים הסנטימנטים הרב-דומיינים הזה הוא מאגר של ביקורות של אמזון עבור מוצרים שונים. לחלק מקטגוריות המוצרים, כמו ספרים, יש ביקורות מגיעות לאלפים, בעוד שלאחרות יש רק כמה מאות ביקורות. חוץ מזה, ניתן להמיר את הביקורות עם דירוגי כוכבים לתוויות בינאריות.

בואו נדון היום בדרישת נתוני ההכשרה שלך ב- AI.

טקסט

ה-Wiki QA Corpus נוצר כדי לסייע במחקר של שאלות ותשובות בדומיין פתוח, והוא אחד ממערכי הנתונים הנרחבים ביותר הזמינים לציבור. הוא מורכב מיומני השאילתות של מנוע החיפוש של Bing, והוא מגיע עם צמדי שאלות ותשובות. יש לו יותר מ-3000 שאלות ו-1500 משפטי תשובות מסומנים.

  • מערך נתונים של דוחות תיקים משפטיים (קישור)

למערך הנתונים של Legal Case Reports יש אוסף של 4000 מקרים משפטיים וניתן להשתמש בהם כדי להכשיר סיכום טקסט אוטומטי וניתוח ציטוטים. נעשה שימוש בכל מסמך, ביטויים, כיתות ציטוט, ביטויי ציטוט ועוד.

מערך הנתונים של Jeopardy הוא אוסף של יותר מ-200,000 שאלות המופיעות בתוכנית הטלוויזיה הפופולרית בחידונים שהורכבה על ידי משתמש Reddit. כל נקודת נתונים מסווגת לפי תאריך שידורה, מספר פרק, ערך, סיבוב ושאלה/תשובה.

אודיו דיבור

  • קורפורה של ויקיפדיה מדוברת (קישור)

אודיו דיבור מערך הנתונים הזה מושלם לכל מי שמחפש לחרוג מהשפה האנגלית. מערך נתונים זה כולל אוסף מאמרים המדוברים בהולנדית ובגרמנית ובאנגלית. יש לו מגוון רחב של נושאים ומערכות רמקולים שנמשכים מאות שעות.

מערך הנתונים האנגלי HUB2000 5 כולל 40 תמלול שיחות טלפון בשפה האנגלית. הנתונים מסופקים על ידי המכון הלאומי לתקנים וטכנולוגיה, וההתמקדות העיקרית שלו היא בזיהוי דיבור בשיחה והמרת דיבור לטקסט.

מערך הנתונים של LibriSpeech הוא אוסף של כמעט 1000 שעות של דיבור באנגלית שנלקח ומפולח כראוי לפי נושאים לפרקים מתוך ספרי אודיו, מה שהופך אותו לכלי מושלם לעיבוד שפה טבעית.

חוות דעת

למערך הנתונים של Yelp יש אוסף עצום של כ-8.5 מיליון ביקורות של יותר מ-160,000 עסקים, ביקורות שלהם ונתוני משתמשים. ניתן להשתמש בביקורות כדי לאמן את המודלים שלך בניתוח סנטימנטים. חוץ מזה, מערך הנתונים הזה כולל גם יותר מ-200,000 תמונות המכסות שמונה מיקומים מטרופולינים.

ביקורות IMDB הן בין מערכי הנתונים הפופולריים ביותר המכילים מידע על השחקנים, דירוגים, תיאור וז'אנר של יותר מ-50 אלף סרטים. ניתן להשתמש במערך נתונים זה כדי לבדוק ולהכשיר את המודלים של למידת מכונה שלך.

  • ערכת נתונים של ביקורות ודירוגים של אמזון (קישור)

מערך הסקירה והדירוג של אמזון מכילים אוסף רב ערך של מטא נתונים וסקירות של מוצרים שונים מאמזון שנאספו מ-1996 עד 2014 - כ-142.8 מיליון רשומות. המטא נתונים כוללים את המחיר, תיאור המוצר, המותג, הקטגוריה ועוד, בעוד שלביקורות יש איכות טקסט, שימושיות הטקסט, דירוגים ועוד.

אז באיזה מערך נתונים בחרת לאמן את מודל למידת המכונה שלך?

תוך כדי, נשאיר אותך עם א בעד טיפ. 

הקפד לעבור ביסודיות על קובץ README לפני בחירת מערך נתונים של NLP לצרכים שלך. מערך הנתונים יכיל את כל המידע הדרוש לך, כגון תוכן מערך הנתונים, הפרמטרים השונים שעל פיהם סווגו הנתונים ומקרי השימוש הסבירים במערך הנתונים.

ללא קשר לדגמים שאתה בונה, יש סיכוי מרגש לשלב את המכונות שלנו באופן הדוק יותר ומהותי יותר בחיינו. עם NLP, האפשרויות לעסקים, סרטים, זיהוי דיבור, פיננסים ועוד גדלות רבות. אם אתה מחפש עוד מערכי נתונים כאלה לחץ כאן.

שתף חברתי

אולי גם תאהב