פתח מערכי נתונים
גלה מערכי נתונים של קוד פתוח שמאפשרים לך ללמד דגמי ML
מערכי נתונים פתוחים כדי להתחיל בעבודה עם דגמי AI/ML
התפוקה של דגמי ה- AI וה- ML שלך טובה רק כמו הנתונים שבהם אתה משתמש לאימון - כך שהדיוק שאתה מיישם על צבירת נתונים ותיוג וזיהוי של נתונים חשוב!
אז אם אתה רוצה להתחיל יוזמה חדשה של AI / ML ועכשיו אתה מבין במהירות שמציאת נתוני הדרכה באיכות גבוהה תהיה אחד ההיבטים המאתגרים יותר בפרויקט שלך מכיוון שמערכי נתונים באיכות גבוהה הם הדלק השומר על AI / מנוע ML פועל. צברנו רשימה של מערכי נתונים פתוחים שניתן להשתמש בהם ולהכשיר את מודלי ה- AI / ML שלך לעתיד בחינם.
התמחות | סוג מידע | שם מערך הנתונים | תעשייה / מחלקה | ביאור / מקרה שימוש | תיאור | קישור |
---|---|---|---|---|---|---|
NLP | טקסט | ביקורות על אמזון | מסחר אלקטרוני | ניתוח הסנטימנט | סט של 35 ביקורות ודירוגים של Mn מ- 18 השנים האחרונות בטקסט רגיל עם פרטי משתמש ומוצר. | קישור |
NLP | טקסט | נתוני קישור מוויקיפדיה | כללי | יותר מ -4 דקות. מאמרים המכילים 1.9 מיליארד דולר. מילה הכוללת מילים וביטויים וכן פסקאות. | קישור | |
NLP | טקסט | סטנדפורד סנטימנט טריבנק | בידור | ניתוח הסנטימנט | מערך הערות סנטימנט ליותר מ -10,000 קטעי ביקורות מ- Rotten Tomatoes בפורמט קובץ HTML | קישור |
NLP | טקסט | טוויטר סנטימנט חברת התעופה האמריקנית | חברת תעופה | ניתוח הסנטימנט | ציוצים משנת 2015 על US Airlines התחלקו לגוונים חיוביים, שליליים ונייטרליים | קישור |
CV | תמונה | תוויות פנים בטבע | כללי | זיהוי פנים | מערך נתונים המכיל מעל 13,000 פרצופים חתוכים עם שתי תמונות שונות לאימון בזיהוי פנים. | קישור |
CV | וידאו, תמונה | מערך נתונים של UMDFaces | כללי | זיהוי פנים | מערך מערך הערות המכיל מעל 367,000 פרצופים מלמעלה מ- 8,000 נושאים הכוללים תמונות סטילס ווידאו. | קישור |
CV | תמונה | אימג'נט | כללי | מערך נתונים עם למעלה מ- 14 דקות. תמונות בפורמטים שונים של קבצים, המאורגנים על פי היררכיית WordNet. | קישור | |
CV | תמונה | התמונות הפתוחות של גוגל | כללי | 9 דקות. כתובות אתרים לסיווג תמונות ציבוריות ממעל 6,000 קטגוריות. | קישור | |
NLP | טקסט | מאגר MIMIC טיפול קריטי | בריאות | מערכי נתונים לפיזיולוגיה חישובית עם נתונים שאינם מזוהים של 40,000 חולים בטיפול קריטי. מערך הנתונים מכיל מידע כגון דמוגרפיה, סימנים חיוניים, תרופות וכו '. | קישור | |
CV | תמונה | משרד הנסיעות והתיירות הלאומי בארה"ב | תיירות | מספק צילומים רחבים מתעשיית התיירות עם מאגרי מידע אמינים, המכסים נושאים כמו נסיעות נכנסות ויוצאות ומידע תיירותי בינלאומי. | קישור | |
NLP | טקסט | משרד התחבורה | תיירות | מערכי נתונים של תיירות הכוללים פארקים לאומיים, רישומי נהגים, גשרים ומידע מסילות וכו '. | קישור | |
NLP | אודיו | קורפוס אודיו של Flickr Audio | כללי | למעלה מ- 40 כיתובים מדוברים מ- 8,000 תצלומים המיועדים לדפוסי דיבור ללא פיקוח | קישור | |
NLP | אודיו | מערך נתונים של פקודות דיבור | כללי | זיהוי דיבור, הערת שמע | התבטאויות ארוכות של שנייה מאלפי אנשים, לבניית ממשק קולי בסיסי. | קישור |
NLP | אודיו | מערכי אודיו סביבתיים | כללי | מערכי נתוני שמע סביבתיים המכילים צליל של טבלאות אירועים ושולחנות סצנה אקוסטיים. | קישור | |
NLP | טקסט | מערך נתוני מחקר פתוח COVID-19 | בריאות | AI רפואי | מערך מחקר המורכב מ- 45,000 מאמרים מדעיים בנושא COVID-19 ומשפחת הנגיפים של הנגיף. | קישור |
CV | תמונה | מערך הנתונים הפתוח של Waymo | רכב | מערכי הנתונים הנהיגה האוטונומיים המגוונים ביותר שפרסמה Waymo | קישור | |
CV | תמונה | גנום חזותי | כללי | כיתוב תמונה | בסיס ידע חזותי עם כיתוב מפורט של מעל 100K תמונות | קישור |
CV | תמונה | תווית | ממשל ציבורי. | סט גדול של תמונות עם הערות הנגישות דרך Labelme Matlab | קישור | |
CV | תמונה | 100 | כללי | מעל 100 אובייקטים מגוונים שצולמו מכמה זוויות (כלומר 360 מעלות) | קישור | |
CV | תמונה | סט נתונים של כלבי סטנפורד | כללי | למעלה מ -20,500 תמונות מסווגות לסט תמונות של 120 גזעי כלבים שונים | קישור | |
CV | תמונה | זיהוי סצנה מקורה | כללי | זיהוי סצנה | מערך נתונים ספציפי המורכב מ- 15620 תמונות מ- 67 קטגוריות פנים לבניית מודלים לזיהוי סצינות | קישור |
CV | תמונה | VisualQA | כללי | מערך נתונים הכולל שאלות פתוחות הנוגעות ל 265,016 תמונות הדורשות הבנת ראייה והבנת שפה כדי להגיב. | קישור | |
NLP | טקסט | מערך נתונים לניתוח רגש רב-תחומי | מסחר אלקטרוני | ניתוח הסנטימנט | מערך נתונים המכיל ביקורות מוצרים מאמזון | קישור |
NLP | טקסט | ביקורות IMDB | בידור | ניתוח הסנטימנט | מערך נתונים המכיל 25000 סקירת סרטים לניתוח סנטימנט | קישור |
NLP | טקסט | סנטימנט 140 | כללי | ניתוח הסנטימנט | מערך נתונים המכיל 160,000 ציוצים עם סמלי הבעה שהוסרו מראש לדיוק גבוה יותר | קישור |
NLP | טקסט | בלוגר קורפוס | כללי | אנליסיס של מפתח | מערך נתונים המכיל 681,288 פוסטים בבלוג מ- blogger.com המורכב ממינימום 200 מופעים של מילים באנגלית נפוצה. | קישור |
NLP | טקסט | סכנה | כללי | הדרכת צ'טבוט | מערך נתונים עם יותר מ- 200,000 שאלות שניתן להשתמש בהן כדי להכשיר מודלים של למידה חישובית להגיב אוטומטית בצורה חכמה | קישור |
NLP | טקסט | אוסף ספאם SMS באנגלית | טלקום | זיהוי דואר זבל | מערך הודעות זבל המורכב מ -5,574 מסרונים באנגלית | קישור |
NLP | טקסט | ביקורות Yelp | כללי | ניתוח הסנטימנט | מערך נתונים עם סקירה של יותר מ -5 דקות שפורסם על ידי Yelp | קישור |
NLP | טקסט | ה- Spambase של UCI | מִפְעָל | זיהוי דואר זבל | מערך נתונים גדול של הודעות דואר זבל, שימושי לסינון דואר זבל. | קישור |
CV | וידאו, תמונה | ברקלי DeepDrive BDD100k | רכב | כלי רכב אוטונומיים | אחד מערכי הנתונים הגדולים ביותר לבינה עצמית של AI המכיל 1,100 שעות חוויות נהיגה בלמעלה מ- 100,000 סרטונים מתקופות שונות ביום מניו יורק ואזור סן פרנסיסקו. | קישור |
CV | וִידֵאוֹ | Comma.ai | רכב | כלי רכב אוטונומיים | מערך נהיגה בכביש המהיר בן 7 שעות הכולל מידע על מהירות המכונית, האצה, זווית ההיגוי וקואורדינטות ה- GPS | קישור |
CV | וידאו, תמונה | מערך נתונים של עיר נוף | רכב | תווית סמנטית לרכב אוטונומי | מערך של 5,000 הערות ברמת הפיקסלים בתוספת סט גדול יותר של 20,000 פריימים עם רישום חלש ברצפי וידאו סטריאו, שהוקלטו מ -50 ערים שונות | קישור |
CV | תמונה | מערך נתונים של תמרור KUL בלגיה | רכב | כלי רכב אוטונומיים | למעלה מ- 10000 הערות תמרורים מאזור פלנדריה, המבוססות על תמרורים נבדלים פיזית מכל רחבי בלגיה. | קישור |
CV | תמונה | LISA: מעבדה למכוניות חכמות ובטוחות, מערכי נתונים של UC סן דייגו | רכב | כלי רכב אוטונומיים | מערך נתונים עשיר המכיל תמרורים, איתור רכבים, רמזורים ודפוסי מסלול. | קישור |
CV | תמונה | CIFAR-10 | כללי | זיהוי אובייקט | מערך כולל 50,000 תמונות ו -10,000 תמונות בדיקה (כלומר 60,000 תמונות 32 × 32 צבעוניות בעשרה כיתות) לזיהוי אובייקטים. | קישור |
CV | תמונה | אופנה MNIST | אופנה | מערך תמונות המורכב מ- 60,000 דוגמאות ומערכת בדיקות של 10,000 דוגמאות בתמונות 28 × 28 בגווני אפור, המשויכות לתווית מ -10 כיתות. | קישור | |
CV | תמונה | מערך נתונים IMDB-Wiki | בידור | זיהוי פנים | מערך נתונים גדול של תמונות פנים עם תוויות כמו מין וגיל. מתוך סך 523,051 תמונות הפנים, 460,723 תמונות מתקבלות מ -20,284 ידוענים מ- IMDB ו- 62,328 מוויקיפדיה. | קישור |
CV | וִידֵאוֹ | קינטיקה -700 | כללי | עבור כל מעמד פעולה, מערך הנתונים האיכותי מורכב מ -650,000 קטעי וידיאו ומקיף 700 שיעורי פעולה אנושיים עם לפחות 600 קליפים. הנה, כל קליפ נמשך 10 שניות בערך. | קישור | |
CV | תמונה | MS קוקו | כללי | איתור אובייקטים, פילוח | מערך הנתונים מכיל 328 תמונות ויש לו סך של 2.5 Mn מופעים ו- 91 תמונות אובייקט לאימון מודלים קשורים של זיהוי אובייקטים, פילוח וכיתוב נתונים. | קישור |
CV | תמונה | מערך נתונים של תומך אנושי MPII | כללי | בערך 25 תצלומים המכילים למעלה מ- 40 אנשים עם מפרקי גוף מסומנים כלולים במערך הנתונים, המשמש לניסוח הערכת תנוחות אנושיות. בסך הכל מערך הנתונים מכיל 410 פעילויות אנושיות וכל תמונה מסופקת עם תווית פעילות. | קישור | |
CV | תמונה | פתח תמונות | כללי | הערות על מיקום אובייקט | מערך תמונות עם כ- 9 תמונות Mn עם הערות עם תוויות ברמת תמונה, תיבות התוחמות של אובייקטים, פילוח אובייקטים וכו '. מערך הנתונים כולל גם 16 Mn. תיבות תוחמות עבור 600 כיתות אובייקט בתמונות 1.9 Mn. | קישור |
CV | וִידֵאוֹ | פלטפורמת אפולו פתוחה, מאת Baidu Inc, סין | רכב | תיבת גבולות, LiDAR | מערך נהיגה אוטונומי עשיר, המספק למפתחים את הנתונים הנדרשים בנהיגה אוטונומית כדי להאיץ את יעילות האיטרציה החדשנית. | קישור |
CV | וידאו, תמונה | ארגו, מאת ארגו, ארה"ב | רכב | תיבת גבולות, זרימה אופטית, תווית התנהגותית, תווית סמנטית, סימון נתיבים | מערך נתונים עם נהיגה עצמית המורכב ממפות HD עם מטא נתונים גיאומטריים וסמנטיים, כלומר קווי נתיב, כיוון נתיב ואזור הניתן לנסיעה. מערך הנתונים משמש לאימון מודלים של ML, ליצירת אלגוריתמי תפיסה מדויקים יותר שיעזרו לרכבים בנהיגה עצמית לנווט בבטחה. | קישור |
CV | וִידֵאוֹ | רמזורים קטנים של בוש, מאת חברת בוש צפון אמריקה | רכב | תיבת גבולות | מערך נתונים הכולל 13427 תמונות מצלמה ברזולוציה 1280 * 720 לבניית מערכת לזיהוי רמזורים מבוססת-ראייה. במערך הנתונים יש יותר מ- 24000 רמזורים מוסברים. | קישור |
CV | וִידֵאוֹ | Brain4Cars, מאת אוניברסיטת קורנל, ארצות הברית | רכב | תווית התנהגותית | מערך נתונים המורכב ממערך של חיישני תא (מצלמות, חיישני מישוש, מכשירים חכמים וכו ') במטרה לחלץ נתונים סטטיסטיים שימושיים על ערנות הנהג. האלגוריתמים שלנו עשויים לזהות נהגים מנומנמים או מוסחים ולהגביר את האזעקות הדרושות לשיפור ההגנה. | קישור |
CV | תמונה | CULane, מאת יוניב הסינית. של הונג קונג, בייג'ינג, סין | רכב | סימון נתיבים | מערך נתונים של ראיית מחשב בנושא איתור נתיבי תנועה, הכולל 55 שעות סרטונים, מהם חולפו 133,235 (ערכת אימונים 88880, ערכת אימות 9675 וערכת בדיקות 34680). הוא נאסף על ידי מצלמות המותקנות על שישה כלי רכב שונים המונעים על ידי נהגים שונים בבייג'ינג. | קישור |
CV | וִידֵאוֹ | דייוויס, מאת יוניב. של ציריך, ETH ¨ ציריך, גרמניה, שוויץ | רכב | מערך אימונים לנהיגה מקצה לקצה ברכב המשתמש במצלמת DAVIS אירוע + מסגרת. נתוני רכב כגון היגוי, מצערת, GPS וכו 'משמשים להערכת מיזוג נתוני מסגרות ואירועים לאפליקציות רכב. | קישור | |
CV | וִידֵאוֹ | DBNet, מאת שנחאי ג'יאו טונג יוניב., אוניברסיטת שיאמן, סין | רכב | נקודת ענן, LiDAR | נתוני נהיגה של 1000 ק"מ בעולם האמיתי, הכוללים וידיאו מיושר, ענן נקודה, GPS והתנהגות נהג לצורך מחקר מעמיק על התנהגויות נהיגה. | קישור |
CV | וִידֵאוֹ | ד"ר (עין), מאת יוניב. של מודנה ורג'יו אמיליה, מודנה, איטליה | רכב | תווית התנהגותית | מערך נתונים המכיל 74 רצפי וידיאו בני 5 דקות כל אחד, שהוסרו בלמעלה מ -500,000 פריימים. מערך הנתונים מורכב ממיקומים המופנים לגאוגרפיה, מהירות נהיגה, מסלול, וגם מתייג קבועי מבט לנהגים ושילובם הזמני ומספקים מפות ספציפיות למשימה. | קישור |
CV | וִידֵאוֹ | מדרחוב ETH (2009), מאת ETH ציריך, ציריך, שוויץ | כללי | תיבת גבולות | מערך נתונים של 74 רצפי וידיאו בני 5 דקות כל אחד, עם הערות ביותר מ -500,000 פריימים. מערך הנתונים מספק מיקומים עם הפניה גיאוגרפית, מהירות נהיגה, כיוון, וגם מתייג קיבועי מבט לנהגים ושילובם הזמני, כולל מפות ספציפיות למשימה. | קישור |
CV | וִידֵאוֹ | פורד (2009), מאת יוניב. של מישיגן, מישיגן, ארה"ב | רכב | Bounding Box,, LiDAR | מערך נתונים שהורכב על ידי רכב יבשתי אוטומטי חמוש בסורק תלת מימד של וולודין, שני לידרים של ריג צופה קדימה, יחידת מדידה אינרציאלית טכנית וצרכנית (IMU) ומערכת מצלמות בכל רחבי כיוון נקודתית. | קישור |
CV | וִידֵאוֹ | HCI סטריאו מאתגר, מחקר תאגיד בוש, הילדסהיים, גרמניה | כללי | מערך של כמה מיליוני פריימים מסצנות וידיאו שנתפסו הכוללות מגוון רחב של תנאי מזג אוויר שונים, שכבות תנועה מרובות ועומק; מצבים בעיר ובכפר וכו '. | קישור | |
CV | וִידֵאוֹ | JAAD, מאת אוניברסיטת יורק, אוקראינה, קנדה | רכב | תיבת גבולות, תווית התנהגותית | "JAAD הוא מערך נתונים ללימוד תשומת לב משותפת בהקשר לנהיגה אוטונומית. ההתמקדות היא בהתנהגויות הולכי רגל ונהג בנקודת המעבר וגורמים המשפיעים עליהם. לשם כך, מערך JAAD מספק אוסף מצוין של 346 סרטונים קצרים. קליפים (באורך 5-10 שניות) שהופקו ממעל 240 שעות נהיגה ממספר מקומות בצפון אמריקה ובמזרח אירופה. תיבות הגבול עם תגי סתימה משמשות לכל הולכי הרגל שהופכים את מערך הנתונים הזה לאיתור הולכי רגל. הערות התנהגות מציינות התנהגויות להולכי רגל. אשר מתקשרים עם הנהג או דורשים התייחסות אליו. לכל סרטון ישנם מספר תגים (מזג אוויר, מיקומים וכו ') ותוויות התנהגות עם חותמת זמן (למשל עצירה, הליכה, הסתכלות וכו'). בנוסף, רשימה של מאפיינים דמוגרפיים היא מסופק לכל הולך רגל (למשל גיל, מין, כיוון תנועה וכו ') וכן רשימה של אלמנטים שנראים לעין של תנועה (למשל תמרור עצור, תמרור וכו') בכל מסגרת. | קישור |
CV | וִידֵאוֹ | KAIST Urban, מאת KAIST, דרום קוריאה | כללי | LiDAR | איסוף הנתונים כולל חיישני מיקום רבים לנתוני LiDAR ותמונות סטריאו המכוונים לאזור עירוני מורכב מאוד (למשל אזורי מטרופולין, מבנים מורכבים ואזורי מגורים). | קישור |
CV | תמונה | תמרור LISA, מאת Univ. של קליפורניה, סן דייגו, ארצות הברית | רכב | תיבת גבולות | ערכת מערך הנתונים המכילה סרטונים ומסגרות עם הערות המכילות תמרורים בארה"ב. הוא שוחרר בשני שלבים, אחד עם התמונות בלבד ואחד עם תמונות וסרטונים. | קישור |
CV | תמונה | Mapillary Vistas, מאת Mapillary AB, גלובל | רכב | תווית סמנטית | מערך צילום ברמת הרחוב לפרשנות סצנות רחוב ברחבי העולם עם הערות אנושיות מדויקות לפיקסלים וספציפי למופע. | קישור |
CV | וידאו, תמונה | סמנטי KITTI, מאת אוניברסיטת בון, קרלסרוהה, גרמניה | רכב | תיבת גבולות, תווית סמנטית, סימון נתיבים | מערך נתונים הכולל הערה סמנטית לכל רצפי ה- Benchmark של Odometry. מערך הנתונים מציין סוגים שונים של תנועה זזה ולא זזה: כולל מכוניות, אופניים, אופניים, הולכי רגל ורוכבי אופניים, המאפשרים ללמוד חפצים בזירה. | קישור |
CV | וִידֵאוֹ | מסלול סטנפורד, מאת אוניברסיטת סטנפורד, ארצות הברית | רכב | איתור / סיווג אובייקטים LiDAR, GPS, קודים | מערך נתונים הכולל 14,000 מסלולי עצמים שכותרתו כפי שנצפה על ידי Velodyne HDL-64E S2 LIDAR בסצינות רחוב טבעיות, שניתן להשתמש בהם להכשרת מודלים של למידת מכונה לזיהוי אובייקטים תלת-ממדיים. | קישור |
CV | וידאו, תמונה | מערך הנתונים של Boxy, מאת בוש, ארצות הברית | רכב | איתור תיבת גבולות / רכב | מערך נתוני זיהוי רכב המכיל 2 מיליון כלי רכב מסומנים לאימון וניתוח אסטרטגיות לזיהוי עצמים למכוניות בנהיגה עצמית בכבישים מהירים. | קישור |
CV | וִידֵאוֹ | הכביש המהיר TME, על ידי אוניברסיטת צ'כיה הצפונית, צפון איטליה | רכב | תיבת גבולות | מערך נתונים של 28 קליפים במשך 27 דקות בסך הכל התחלק למסגרות של 30,000+ הערות לרכב. ההערה הופקה באופן אוטומטי למחצה באמצעות הנתונים מסורק הלייזר. איסוף נתונים זה כולל תרחישי תנועה משתנים, מספר נתיבים, עקמומיות דרכים ותאורה, המכסים חלק ניכר מתנאי הרכישה המלאה. | קישור |
CV | וִידֵאוֹ | לאמות ללא פיקוח, מאת בוש, ארצות הברית | רכב | סימון נתיבים, LiDAR | מערך הלמאס ללא פיקוח הועלה על ידי יצירת מפות נהיגה אוטומטיות בחדות גבוהה, כולל סמני מסלול מבוססי Lidar. ניתן ליישר את הרכב האוטונומי כנגד מפות אלה וסימני הנתיב מוקרנים במסגרת המצלמה. ההקרנה התלת-ממדית מותאמת על ידי מזעור הפער בין סמני התמונה שנצפו כבר. | קישור |
NLP | אודיו | Facebook AI רב לשוני LibriSpeech (MLS) | כללי | ביאור שמע / זיהוי דיבור | Facebook AI Multilingual LibriSpeech (MLS) הוא מערך נתונים פתוח בקנה מידה גדול שנועד לסייע לקידום המחקר בזיהוי דיבור אוטומטי (ASR). MLS מספק יותר מ- 50,000 שעות שמע בשמונה שפות: אנגלית, גרמנית, הולנדית, צרפתית, ספרדית, איטלקית, פורטוגזית ופולנית. | קישור |