מערכי נתונים פתוחים כדי להתחיל בעבודה עם דגמי AI/ML
התפוקה של דגמי ה- AI וה- ML שלך טובה רק כמו הנתונים שבהם אתה משתמש לאימון - כך שהדיוק שאתה מיישם על צבירת נתונים ותיוג וזיהוי של נתונים חשוב!
אז אם אתה רוצה להתחיל יוזמה חדשה של AI / ML ועכשיו אתה מבין במהירות שמציאת נתוני הדרכה באיכות גבוהה תהיה אחד ההיבטים המאתגרים יותר בפרויקט שלך מכיוון שמערכי נתונים באיכות גבוהה הם הדלק השומר על AI / מנוע ML פועל. צברנו רשימה של מערכי נתונים פתוחים שניתן להשתמש בהם ולהכשיר את מודלי ה- AI / ML שלך לעתיד בחינם.
| התמחות | סוג מידע | שם מערך הנתונים | תעשייה / מחלקה | ביאור / מקרה שימוש | קישור |
|---|---|---|---|---|---|
| +NLP | טקסט | ביקורות על אמזון | מסחר אלקטרוני | ניתוח הסנטימנט | קישור |
| תיאור | סט של 35 ביקורות ודירוגים של Mn מ- 18 השנים האחרונות בטקסט רגיל עם פרטי משתמש ומוצר. | ||||
| +NLP | טקסט | נתוני קישור מוויקיפדיה | כללי | קישור | |
| תיאור | יותר מ-4 מיליון מאמרים המכילים 1.9 מיליארד מילים מויקיפדיה. כל ערך מכיל היפר-קישורים לישות המשויכת. | ||||
| +NLP | טקסט | סטנדפורד סנטימנט טריבנק | בידור | ניתוח הסנטימנט | קישור |
| תיאור | מערך נתונים של הערות סנטימנט עבור למעלה מ-10,000 משפטים של ביקורות סרטים של Rotten Tomatoes. זמין ברמת הביטוי - כל משפט מנותח לתת-ביטויים על ידי עיבוד בינארי של עצי הניתוח בפורמט Penn Treebank. | ||||
| +NLP | טקסט | טוויטר סנטימנט חברת התעופה האמריקנית | חברת תעופה | ניתוח הסנטימנט | קישור |
| תיאור | ציוצים של US Airlines בשנת 2015 התפצלו לסוגים חיוביים, ניטרליים ושליליים. | ||||
| +CV | תמונה | אימג'נט | כללי | קישור | |
| תיאור | מערך נתונים עם מעל 14 מיליון תמונות בפורמטים שונים של קבצים, הממופות לכ-21,000 סינסטים. סינסטים הם סינומים עם ישויות קשורות המופיעות כתמונה. למיליון תמונות יש תיבות תוחמות, ויותר ממיליון תמונות יש תכונות SIFT. | ||||
| +CV | תמונה | התמונות הפתוחות של גוגל | כללי | קישור | |
| תיאור | מערך נתונים דומה ל-ImageNet עם 600 קטגוריות. זמין בחלוקות פיתוח, אימות ואימון. חלק מהתמונות כוללות גם תיבות גבולות וקשרים חזותיים. | ||||
| +NLP | טקסט | דיאלוגים של סרטי קורנל | בידור | דיאלוגים | קישור |
| תיאור | אוסף של שיחות בדיוניות, עם מטא-דאטה של דמויות וסרטים. כל שורה היא דיאלוג בין שני אנשים, בפורמט של שאלות ותשובות. | ||||
| תיאור | מערך נתונים של שאלות ותשובות מפורטל Yahoo Answers בין אפריל 2007 לאוקטובר 2007. | ||||
| +NLP | טקסט | גברת מרקו | כללי | תשובת שאלה | קישור |
| תיאור | מערך נתונים של שאלות ותשובות עם הערות מיומני חיפוש האינטרנט של בינג. כל שאלה מכילה תשובה שסופקה על ידי משתמש, וכן קטעי אינטרנט המכילים את התשובה. | ||||
| +NLP | טקסט | מערך נתונים של שאלות טבעיות | כללי | תשובת שאלה | קישור |
| תיאור | מערך נתונים זה, שפורסם על ידי גוגל, מכיל שאילתות ותשובות אמיתיות של משתמשים ממאמרים בוויקיפדיה. | ||||
| +NLP | טקסט | DBPedia | כללי | גרף ידע | קישור |
| תיאור | עיבוד מובנה של ויקיפדיה, עם ישויות וקשרים שחולצו כגרף ידע. | ||||
| +NLP | טקסט | יאגו | כללי | גרף ידע | קישור |
| תיאור | גרף ידע המכיל ישויות וקשרים מויקיפדיה, WordNet ו-GeoNames. | ||||
| +NLP | טקסט | פריבייס | כללי | גרף ידע | קישור |
| תיאור | מאגר ידע מבוסס המונים, המורכב מישויות וקשרים, משולב כעת בגרף הידע של גוגל. | ||||
| +NLP | טקסט | אונטוטים | כללי | תיוג תפקידים סמנטי | קישור |
| תיאור | קורפוס עם הערות תחביריות, סמנטיות וברמת השיח המשמשות במשימות המשותפות של CoNLL. | ||||
| תיאור | מערך נתונים באנגלית עם הערות עבור ישויות בעלות שם כגון אדם, ארגון ומיקום. | ||||
| +CV | תמונה | COCO | כללי | זיהוי אובייקט | קישור |
| תיאור | אובייקטים נפוצים בהקשר: מערך נתונים עשיר ומבואר לזיהוי, פילוח וכיתוב של אובייקטים. | ||||
| +CV | תמונה | פסקאל ווק | כללי | זיהוי אובייקט | קישור |
| תיאור | מערך נתונים של ייחוס לאתגרי זיהוי ופילוח של אובייקטים. | ||||
| +CV | תמונה | נופי עיר | נהיגה אוטונומית | פילוח סמנטי | קישור |
| תיאור | מערך נתונים להבנת סצנה עירונית עם הערות ברמת פיקסל עבור 30 מחלקות. | ||||
| +CV | תמונה | MNIST | כללי | סיווג ספרות | קישור |
| תיאור | מערך נתונים של ספרות בכתב יד עם 60,000 תמונות אימון ו-10,000 תמונות בדיקה בגודל 28x28 פיקסלים. | ||||
| +CV | תמונה | אופנה-MNIST | קניות | סיווג תמונות | קישור |
| תיאור | מערך נתונים של תמונות מאמרים של זלנדו באותו פורמט כמו MNIST, המשמש כתחליף נגיש לביצועי ביצועים. | ||||
| +NLP | אודיו | LibriSpeech | כללי | ASR | קישור |
| תיאור | קורפוס של דיבור באנגלית קריאה שמקורו בספרים מוקלטים, עם 1000 שעות של דיבור וטקסטים נלווים. | ||||
| +NLP | אודיו | טד-ליום | כללי | ASR | קישור |
| תיאור | הרצאות TED מתועתקות עם אודיו ותמלולים מיושרים למחקר זיהוי דיבור. | ||||
| +NLP | אודיו | טימיט | כללי | זיהוי פונמות | קישור |
| תיאור | דיבור מתועתק פונטית של דוברי אנגלית אמריקאית, בשימוש נרחב למשימות זיהוי פונמות. | ||||
| +NLP | אודיו | קול נפוץ | כללי | ASR | קישור |
| תיאור | קורפוס רב-לשוני של דיבור קריאה שנתרם על ידי מתנדבים ברחבי העולם. | ||||
| +NLP | אודיו | ווקססלב | כללי | זיהוי דובר | קישור |
| תיאור | מערך נתונים גדול של זיהוי דוברים שנאסף מסרטוני יוטיוב. | ||||
| +NLP | טקסט | ויקיפדיה דאמפ | כללי | מודל שפה | קישור |
| תיאור | קבצי טקסט מלאים של ערכים בוויקיפדיה, המתעדכנים באופן קבוע, משמשים לאימון מוקדם של מודלים של שפה. | ||||
| +NLP | טקסט | גיגה-וורד | חֲדָשׁוֹת | מודל שפה | קישור |
| תיאור | ארכיון מקיף של נתוני טקסט של ערוצי חדשות מסוכנויות ידיעות מרובות. | ||||
| +NLP | טקסט | ביקורות IMDB | בידור | ניתוח הסנטימנט | קישור |
| תיאור | מערך נתונים גדול של ביקורות סרטים לסיווג סנטימנטים בינאריים. | ||||
| +CV | וִידֵאוֹ | קינטיקה -700 | כללי | זיהוי פעולה | קישור |
| תיאור | מערך נתונים גדול ואיכותי של קטעי וידאו ביוטיוב המכסים 700 קטגוריות של פעולות אנושיות. | ||||
| +CV | וִידֵאוֹ | UCF101 | כללי | זיהוי פעולה | קישור |
| תיאור | מערך נתונים של סרטוני פעולה ריאליסטיים, עם 101 קטגוריות פעולה. | ||||
| +CV | וִידֵאוֹ | HMDB51 | כללי | זיהוי פעולה | קישור |
| תיאור | מאגר נתונים גדול של סרטוני תנועה אנושית עם 51 קטגוריות פעולה. | ||||
| תיאור | מאגר נתונים של תמונות פנים שנועד לחקר זיהוי פנים בלתי מוגבל. | ||||
| +CV | תמונה | CASIA-WebFace | כללי | זיהוי פנים | קישור |
| תיאור | מערך נתונים עם מיליוני תמונות פנים לאימון מודלים של זיהוי פנים עמוק. | ||||
| +NLP | טקסט | חוּלִיָה | כללי | הבנת הנקרא | קישור |
| תיאור | מערך נתונים של מענה לשאלות בסטנפורד: שאלות שהוצגו על ידי עובדי המונים על קבוצת ערכים בוויקיפדיה. | ||||
| תיאור | מערך נתונים של הבנת מכונה עם שאלות ותשובות המבוססות על כתבות חדשותיות של CNN. | ||||
| +NLP | טקסט | מולטי-NLI | כללי | הסקה בשפה טבעית | קישור |
| תיאור | מערך נתונים להסקת שפה טבעית של זוגות משפטים על פני ז'אנרים מרובים. | ||||
| +NLP | טקסט | SNLI | כללי | הסקה בשפה טבעית | קישור |
| תיאור | קורפוס הסקה של שפה טבעית של סטנפורד עם זוגות משפטים המסומנים כמעורבות, סתירה או ניטרלי. | ||||
| תיאור | אוסף של למעלה מ-100 מיליון אסימונים שחולצו מקבוצת המאמרים הטובים והמוצגים המאומתים בוויקיפדיה. | ||||
| תיאור | מערך נתונים של 16,185 תמונות של 196 סוגי מכוניות. | ||||
| +CV | תמונה | פרחי אוקספורד 102 | בּוֹטָנִיקָה | סיווג דק | קישור |
| תיאור | 102 קטגוריות פרחים הנפוצות בממלכה המאוחדת. | ||||
| +CV | תמונה | CIFAR-10 | כללי | סיווג תמונות | קישור |
| תיאור | תמונות של 10 קטגוריות: מטוס, מכונית, ציפור, חתול, צבי, כלב, צפרדע, סוס, ספינה ומשאית. | ||||
| +CV | תמונה | CIFAR-100 | כללי | סיווג תמונות | קישור |
| תיאור | מערך נתונים דומה ל-CIFAR-10, אך עם 100 מחלקות מפורטות. | ||||
| +CV | תמונה | פריסת אדם VOC | כללי | הערכת תנוחה | קישור |
| תיאור | חלק מ-PASCAL VOC המתמקד בהערות על פריסת אנשים כגון ראש, ידיים ורגליים. | ||||
| +CV | תמונה | תנוחת האדם של MPII | כללי | הערכת תנוחה | קישור |
| תיאור | כ-25,000 תמונות המכילות מעל 40,000 אנשים עם מפרקי גוף מסומנים. | ||||
| תיאור | אוסף מאמרי חדשות רויטרס למחקר סיווג טקסט. | ||||
| +NLP | טקסט | 20 קבוצות דיון | כללי | סיווג טקסט | קישור |
| תיאור | אוסף של 20,000 מסמכי קבוצות דיון המחולקים ל-20 קבוצות דיון שונות. | ||||