פתח מערכי נתונים

גלה מערכי נתונים של קוד פתוח שמאפשרים לך ללמד דגמי ML

פתח מערכי נתונים

מערכי נתונים פתוחים כדי להתחיל בעבודה עם דגמי AI/ML

התפוקה של דגמי ה- AI וה- ML שלך טובה רק כמו הנתונים שבהם אתה משתמש לאימון - כך שהדיוק שאתה מיישם על צבירת נתונים ותיוג וזיהוי של נתונים חשוב!

אז אם אתה רוצה להתחיל יוזמה חדשה של AI / ML ועכשיו אתה מבין במהירות שמציאת נתוני הדרכה באיכות גבוהה תהיה אחד ההיבטים המאתגרים יותר בפרויקט שלך מכיוון שמערכי נתונים באיכות גבוהה הם הדלק השומר על AI / מנוע ML פועל. צברנו רשימה של מערכי נתונים פתוחים שניתן להשתמש בהם ולהכשיר את מודלי ה- AI / ML שלך לעתיד בחינם.

התמחותסוג מידעשם מערך הנתוניםתעשייה / מחלקהביאור / מקרה שימושתיאורקישור
NLPטקסטביקורות על אמזוןמסחר אלקטרוניניתוח הסנטימנטסט של 35 ביקורות ודירוגים של Mn מ- 18 השנים האחרונות בטקסט רגיל עם פרטי משתמש ומוצר.קישור
NLPטקסטנתוני קישור מוויקיפדיהכללייותר מ -4 דקות. מאמרים המכילים 1.9 מיליארד דולר. מילה הכוללת מילים וביטויים וכן פסקאות.קישור
NLPטקסטסטנדפורד סנטימנט טריבנקבידורניתוח הסנטימנטמערך הערות סנטימנט ליותר מ -10,000 קטעי ביקורות מ- Rotten Tomatoes בפורמט קובץ HTMLקישור
NLPטקסטטוויטר סנטימנט חברת התעופה האמריקניתחברת תעופהניתוח הסנטימנטציוצים משנת 2015 על US Airlines התחלקו לגוונים חיוביים, שליליים ונייטרלייםקישור
CVתמונה תוויות פנים בטבעכלליזיהוי פניםמערך נתונים המכיל מעל 13,000 פרצופים חתוכים עם שתי תמונות שונות לאימון בזיהוי פנים.קישור
CVוידאו, תמונהמערך נתונים של UMDFacesכלליזיהוי פניםמערך מערך הערות המכיל מעל 367,000 פרצופים מלמעלה מ- 8,000 נושאים הכוללים תמונות סטילס ווידאו.קישור
CVתמונה אימג'נטכללימערך נתונים עם למעלה מ- 14 דקות. תמונות בפורמטים שונים של קבצים, המאורגנים על פי היררכיית WordNet.קישור
CVתמונה התמונות הפתוחות של גוגלכללי9 דקות. כתובות אתרים לסיווג תמונות ציבוריות ממעל 6,000 קטגוריות.קישור
NLPטקסטמאגר MIMIC טיפול קריטיבריאותמערכי נתונים לפיזיולוגיה חישובית עם נתונים שאינם מזוהים של 40,000 חולים בטיפול קריטי. מערך הנתונים מכיל מידע כגון דמוגרפיה, סימנים חיוניים, תרופות וכו '.קישור
CVתמונהמשרד הנסיעות והתיירות הלאומי בארה"בתיירותמספק צילומים רחבים מתעשיית התיירות עם מאגרי מידע אמינים, המכסים נושאים כמו נסיעות נכנסות ויוצאות ומידע תיירותי בינלאומי.קישור
NLPטקסטמשרד התחבורהתיירותמערכי נתונים של תיירות הכוללים פארקים לאומיים, רישומי נהגים, גשרים ומידע מסילות וכו '.קישור
NLPאודיוקורפוס אודיו של Flickr Audioכללילמעלה מ- 40 כיתובים מדוברים מ- 8,000 תצלומים המיועדים לדפוסי דיבור ללא פיקוחקישור
NLPאודיומערך נתונים של פקודות דיבורכלליזיהוי דיבור, הערת שמעהתבטאויות ארוכות של שנייה מאלפי אנשים, לבניית ממשק קולי בסיסי.קישור
NLPאודיומערכי אודיו סביבתייםכללימערכי נתוני שמע סביבתיים המכילים צליל של טבלאות אירועים ושולחנות סצנה אקוסטיים.קישור
NLPטקסטמערך נתוני מחקר פתוח COVID-19 בריאותAI רפואימערך מחקר המורכב מ- 45,000 מאמרים מדעיים בנושא COVID-19 ומשפחת הנגיפים של הנגיף.קישור
CVתמונהמערך הנתונים הפתוח של Waymo כלי רכבמערכי הנתונים הנהיגה האוטונומיים המגוונים ביותר שפרסמה Waymoקישור
CVתמונהגנום חזותי כלליכיתוב תמונהבסיס ידע חזותי עם כיתוב מפורט של מעל 100K תמונותקישור
CVתמונהתווית ממשל ציבורי.סט גדול של תמונות עם הערות הנגישות דרך Labelme Matlabקישור
CVתמונה100כללימעל 100 אובייקטים מגוונים שצולמו מכמה זוויות (כלומר 360 מעלות)קישור
CVתמונהסט נתונים של כלבי סטנפורדכללילמעלה מ -20,500 תמונות מסווגות לסט תמונות של 120 גזעי כלבים שוניםקישור
CVתמונהזיהוי סצנה מקורהכלליזיהוי סצנהמערך נתונים ספציפי המורכב מ- 15620 תמונות מ- 67 קטגוריות פנים לבניית מודלים לזיהוי סצינותקישור
CVתמונהVisualQAכללימערך נתונים הכולל שאלות פתוחות הנוגעות ל 265,016 תמונות הדורשות הבנת ראייה והבנת שפה כדי להגיב.קישור
NLPטקסטמערך נתונים לניתוח רגש רב-תחומימסחר אלקטרוניניתוח הסנטימנטמערך נתונים המכיל ביקורות מוצרים מאמזוןקישור
NLPטקסטביקורות IMDBבידורניתוח הסנטימנטמערך נתונים המכיל 25000 סקירת סרטים לניתוח סנטימנטקישור
NLPטקסטסנטימנט 140כלליניתוח הסנטימנטמערך נתונים המכיל 160,000 ציוצים עם סמלי הבעה שהוסרו מראש לדיוק גבוה יותרקישור
NLPטקסטבלוגר קורפוסכלליאנליסיס של מפתחמערך נתונים המכיל 681,288 פוסטים בבלוג מ- blogger.com המורכב ממינימום 200 מופעים של מילים באנגלית נפוצה.קישור
NLPטקסטסכנהכלליהדרכת צ'טבוטמערך נתונים עם יותר מ- 200,000 שאלות שניתן להשתמש בהן כדי להכשיר מודלים של למידה חישובית להגיב אוטומטית בצורה חכמהקישור
NLPטקסטאוסף ספאם SMS באנגליתטלקוםזיהוי דואר זבלמערך הודעות זבל המורכב מ -5,574 מסרונים באנגליתקישור
NLPטקסטביקורות Yelpכלליניתוח הסנטימנטמערך נתונים עם סקירה של יותר מ -5 דקות שפורסם על ידי Yelpקישור
NLPטקסטה- Spambase של UCIמִפְעָלזיהוי דואר זבלמערך נתונים גדול של הודעות דואר זבל, שימושי לסינון דואר זבל.קישור
CVוידאו, תמונהברקלי DeepDrive BDD100kכלי רכבכלי רכב אוטונומייםאחד מערכי הנתונים הגדולים ביותר לבינה עצמית של AI המכיל 1,100 שעות חוויות נהיגה בלמעלה מ- 100,000 סרטונים מתקופות שונות ביום מניו יורק ואזור סן פרנסיסקו.קישור
CVוִידֵאוֹComma.aiכלי רכבכלי רכב אוטונומיים מערך נהיגה בכביש המהיר בן 7 שעות הכולל מידע על מהירות המכונית, האצה, זווית ההיגוי וקואורדינטות ה- GPSקישור
CVוידאו, תמונהמערך נתונים של עיר נוףכלי רכבתווית סמנטית לרכב אוטונומימערך של 5,000 הערות ברמת הפיקסלים בתוספת סט גדול יותר של 20,000 פריימים עם רישום חלש ברצפי וידאו סטריאו, שהוקלטו מ -50 ערים שונותקישור
CVתמונהמערך נתונים של תמרור KUL בלגיהכלי רכבכלי רכב אוטונומייםלמעלה מ- 10000 הערות תמרורים מאזור פלנדריה, המבוססות על תמרורים נבדלים פיזית מכל רחבי בלגיה.קישור
CVתמונהLISA: מעבדה למכוניות חכמות ובטוחות, מערכי נתונים של UC סן דייגוכלי רכבכלי רכב אוטונומייםמערך נתונים עשיר המכיל תמרורים, איתור רכבים, רמזורים ודפוסי מסלול.קישור
CVתמונהCIFAR-10כלליזיהוי אובייקטמערך כולל 50,000 תמונות ו -10,000 תמונות בדיקה (כלומר 60,000 תמונות 32 × 32 צבעוניות בעשרה כיתות) לזיהוי אובייקטים.קישור
CVתמונהאופנה MNISTאופנהמערך תמונות המורכב מ- 60,000 דוגמאות ומערכת בדיקות של 10,000 דוגמאות בתמונות 28 × 28 בגווני אפור, המשויכות לתווית מ -10 כיתות.קישור
CVתמונהמערך נתונים IMDB-Wikiבידורזיהוי פניםמערך נתונים גדול של תמונות פנים עם תוויות כמו מין וגיל. מתוך סך 523,051 תמונות הפנים, 460,723 תמונות מתקבלות מ -20,284 ידוענים מ- IMDB ו- 62,328 מוויקיפדיה.קישור
CVוִידֵאוֹקינטיקה -700כלליעבור כל מעמד פעולה, מערך הנתונים האיכותי מורכב מ -650,000 קטעי וידיאו ומקיף 700 שיעורי פעולה אנושיים עם לפחות 600 קליפים. הנה, כל קליפ נמשך 10 שניות בערך.קישור
CVתמונהMS קוקוכלליאיתור אובייקטים, פילוחמערך הנתונים מכיל 328 תמונות ויש לו סך של 2.5 Mn מופעים ו- 91 תמונות אובייקט לאימון מודלים קשורים של זיהוי אובייקטים, פילוח וכיתוב נתונים.קישור
CVתמונהמערך נתונים של תומך אנושי MPIIכלליבערך 25 תצלומים המכילים למעלה מ- 40 אנשים עם מפרקי גוף מסומנים כלולים במערך הנתונים, המשמש לניסוח הערכת תנוחות אנושיות. בסך הכל מערך הנתונים מכיל 410 פעילויות אנושיות וכל תמונה מסופקת עם תווית פעילות.קישור
CVתמונהפתח תמונותכלליהערות על מיקום אובייקטמערך תמונות עם כ- 9 תמונות Mn עם הערות עם תוויות ברמת תמונה, תיבות התוחמות של אובייקטים, פילוח אובייקטים וכו '. מערך הנתונים כולל גם 16 Mn. תיבות תוחמות עבור 600 כיתות אובייקט בתמונות 1.9 Mn.קישור
CVוִידֵאוֹפלטפורמת אפולו פתוחה, מאת Baidu Inc, סיןכלי רכבתיבת גבולות, LiDARמערך נהיגה אוטונומי עשיר, המספק למפתחים את הנתונים הנדרשים בנהיגה אוטונומית כדי להאיץ את יעילות האיטרציה החדשנית.קישור
CVוידאו, תמונהארגו, מאת ארגו, ארה"בכלי רכבתיבת גבולות, זרימה אופטית, תווית התנהגותית, תווית סמנטית, סימון נתיביםמערך נתונים עם נהיגה עצמית המורכב ממפות HD עם מטא נתונים גיאומטריים וסמנטיים, כלומר קווי נתיב, כיוון נתיב ואזור הניתן לנסיעה. מערך הנתונים משמש לאימון מודלים של ML, ליצירת אלגוריתמי תפיסה מדויקים יותר שיעזרו לרכבים בנהיגה עצמית לנווט בבטחה.קישור
CVוִידֵאוֹרמזורים קטנים של בוש, מאת חברת בוש צפון אמריקהכלי רכבתיבת גבולותמערך נתונים הכולל 13427 תמונות מצלמה ברזולוציה 1280 * 720 לבניית מערכת לזיהוי רמזורים מבוססת-ראייה. במערך הנתונים יש יותר מ- 24000 רמזורים מוסברים.קישור
CVוִידֵאוֹBrain4Cars, מאת אוניברסיטת קורנל, ארצות הבריתכלי רכבתווית התנהגותיתמערך נתונים המורכב ממערך של חיישני תא (מצלמות, חיישני מישוש, מכשירים חכמים וכו ') במטרה לחלץ נתונים סטטיסטיים שימושיים על ערנות הנהג. האלגוריתמים שלנו עשויים לזהות נהגים מנומנמים או מוסחים ולהגביר את האזעקות הדרושות לשיפור ההגנה.קישור
CVתמונהCULane, מאת יוניב הסינית. של הונג קונג, בייג'ינג, סיןכלי רכבסימון נתיביםמערך נתונים של ראיית מחשב בנושא איתור נתיבי תנועה, הכולל 55 שעות סרטונים, מהם חולפו 133,235 (ערכת אימונים 88880, ערכת אימות 9675 וערכת בדיקות 34680). הוא נאסף על ידי מצלמות המותקנות על שישה כלי רכב שונים המונעים על ידי נהגים שונים בבייג'ינג.קישור
CVוִידֵאוֹדייוויס, מאת יוניב. של ציריך, ETH ¨ ציריך, גרמניה, שוויץכלי רכבמערך אימונים לנהיגה מקצה לקצה ברכב המשתמש במצלמת DAVIS אירוע + מסגרת. נתוני רכב כגון היגוי, מצערת, GPS וכו 'משמשים להערכת מיזוג נתוני מסגרות ואירועים לאפליקציות רכב.קישור
CVוִידֵאוֹDBNet, מאת שנחאי ג'יאו טונג יוניב., אוניברסיטת שיאמן, סיןכלי רכבנקודת ענן, LiDARנתוני נהיגה של 1000 ק"מ בעולם האמיתי, הכוללים וידיאו מיושר, ענן נקודה, GPS והתנהגות נהג לצורך מחקר מעמיק על התנהגויות נהיגה.קישור
CVוִידֵאוֹד"ר (עין), מאת יוניב. של מודנה ורג'יו אמיליה, מודנה, איטליהכלי רכבתווית התנהגותיתמערך נתונים המכיל 74 רצפי וידיאו בני 5 דקות כל אחד, שהוסרו בלמעלה מ -500,000 פריימים. מערך הנתונים מורכב ממיקומים המופנים לגאוגרפיה, מהירות נהיגה, מסלול, וגם מתייג קבועי מבט לנהגים ושילובם הזמני ומספקים מפות ספציפיות למשימה.קישור
CVוִידֵאוֹמדרחוב ETH (2009), מאת ETH ציריך, ציריך, שוויץכלליתיבת גבולותמערך נתונים של 74 רצפי וידיאו בני 5 דקות כל אחד, עם הערות ביותר מ -500,000 פריימים. מערך הנתונים מספק מיקומים עם הפניה גיאוגרפית, מהירות נהיגה, כיוון, וגם מתייג קיבועי מבט לנהגים ושילובם הזמני, כולל מפות ספציפיות למשימה.קישור
CVוִידֵאוֹפורד (2009), מאת יוניב. של מישיגן, מישיגן, ארה"בכלי רכבBounding Box,, LiDARמערך נתונים שהורכב על ידי רכב יבשתי אוטומטי חמוש בסורק תלת מימד של וולודין, שני לידרים של ריג צופה קדימה, יחידת מדידה אינרציאלית טכנית וצרכנית (IMU) ומערכת מצלמות בכל רחבי כיוון נקודתית.קישור
CVוִידֵאוֹHCI סטריאו מאתגר, מחקר תאגיד בוש, הילדסהיים, גרמניהכללימערך של כמה מיליוני פריימים מסצנות וידיאו שנתפסו הכוללות מגוון רחב של תנאי מזג אוויר שונים, שכבות תנועה מרובות ועומק; מצבים בעיר ובכפר וכו '.קישור
CVוִידֵאוֹJAAD, מאת אוניברסיטת יורק, אוקראינה, קנדהכלי רכבתיבת גבולות, תווית התנהגותית"JAAD הוא מערך נתונים ללימוד תשומת לב משותפת בהקשר לנהיגה אוטונומית. ההתמקדות היא בהתנהגויות הולכי רגל ונהג בנקודת המעבר וגורמים המשפיעים עליהם. לשם כך, מערך JAAD מספק אוסף מצוין של 346 סרטונים קצרים. קליפים (באורך 5-10 שניות) שהופקו ממעל 240 שעות נהיגה ממספר מקומות בצפון אמריקה ובמזרח אירופה. תיבות הגבול עם תגי סתימה משמשות לכל הולכי הרגל שהופכים את מערך הנתונים הזה לאיתור הולכי רגל. הערות התנהגות מציינות התנהגויות להולכי רגל. אשר מתקשרים עם הנהג או דורשים התייחסות אליו. לכל סרטון ישנם מספר תגים (מזג אוויר, מיקומים וכו ') ותוויות התנהגות עם חותמת זמן (למשל עצירה, הליכה, הסתכלות וכו'). בנוסף, רשימה של מאפיינים דמוגרפיים היא מסופק לכל הולך רגל (למשל גיל, מין, כיוון תנועה וכו ') וכן רשימה של אלמנטים שנראים לעין של תנועה (למשל תמרור עצור, תמרור וכו') בכל מסגרת.קישור
CVוִידֵאוֹKAIST Urban, מאת KAIST, דרום קוריאהכלליLiDARאיסוף הנתונים כולל חיישני מיקום רבים לנתוני LiDAR ותמונות סטריאו המכוונים לאזור עירוני מורכב מאוד (למשל אזורי מטרופולין, מבנים מורכבים ואזורי מגורים).קישור
CVתמונהתמרור LISA, מאת Univ. של קליפורניה, סן דייגו, ארצות הבריתכלי רכבתיבת גבולותערכת מערך הנתונים המכילה סרטונים ומסגרות עם הערות המכילות תמרורים בארה"ב. הוא שוחרר בשני שלבים, אחד עם התמונות בלבד ואחד עם תמונות וסרטונים.קישור
CVתמונהMapillary Vistas, מאת Mapillary AB, גלובלכלי רכבתווית סמנטיתמערך צילום ברמת הרחוב לפרשנות סצנות רחוב ברחבי העולם עם הערות אנושיות מדויקות לפיקסלים וספציפי למופע.קישור
CVוידאו, תמונהסמנטי KITTI, מאת אוניברסיטת בון, קרלסרוהה, גרמניהכלי רכבתיבת גבולות, תווית סמנטית, סימון נתיביםמערך נתונים הכולל הערה סמנטית לכל רצפי ה- Benchmark של Odometry. מערך הנתונים מציין סוגים שונים של תנועה זזה ולא זזה: כולל מכוניות, אופניים, אופניים, הולכי רגל ורוכבי אופניים, המאפשרים ללמוד חפצים בזירה.קישור
CVוִידֵאוֹמסלול סטנפורד, מאת אוניברסיטת סטנפורד, ארצות הבריתכלי רכבאיתור / סיווג אובייקטים LiDAR, GPS, קודיםמערך נתונים הכולל 14,000 מסלולי עצמים שכותרתו כפי שנצפה על ידי Velodyne HDL-64E S2 LIDAR בסצינות רחוב טבעיות, שניתן להשתמש בהם להכשרת מודלים של למידת מכונה לזיהוי אובייקטים תלת-ממדיים.קישור
CVוידאו, תמונהמערך הנתונים של Boxy, מאת בוש, ארצות הבריתכלי רכבאיתור תיבת גבולות / רכבמערך נתוני זיהוי רכב המכיל 2 מיליון כלי רכב מסומנים לאימון וניתוח אסטרטגיות לזיהוי עצמים למכוניות בנהיגה עצמית בכבישים מהירים.קישור
CVוִידֵאוֹהכביש המהיר TME, על ידי אוניברסיטת צ'כיה הצפונית, צפון איטליהכלי רכבתיבת גבולותמערך נתונים של 28 קליפים במשך 27 דקות בסך הכל התחלק למסגרות של 30,000+ הערות לרכב. ההערה הופקה באופן אוטומטי למחצה באמצעות הנתונים מסורק הלייזר. איסוף נתונים זה כולל תרחישי תנועה משתנים, מספר נתיבים, עקמומיות דרכים ותאורה, המכסים חלק ניכר מתנאי הרכישה המלאה.קישור
CVוִידֵאוֹלאמות ללא פיקוח, מאת בוש, ארצות הבריתכלי רכבסימון נתיבים, LiDARמערך הלמאס ללא פיקוח הועלה על ידי יצירת מפות נהיגה אוטומטיות בחדות גבוהה, כולל סמני מסלול מבוססי Lidar. ניתן ליישר את הרכב האוטונומי כנגד מפות אלה וסימני הנתיב מוקרנים במסגרת המצלמה. ההקרנה התלת-ממדית מותאמת על ידי מזעור הפער בין סמני התמונה שנצפו כבר.קישור
NLPאודיוFacebook AI רב לשוני LibriSpeech (MLS)כלליביאור שמע / זיהוי דיבורFacebook AI Multilingual LibriSpeech (MLS) הוא מערך נתונים פתוח בקנה מידה גדול שנועד לסייע לקידום המחקר בזיהוי דיבור אוטומטי (ASR). MLS מספק יותר מ- 50,000 שעות שמע בשמונה שפות: אנגלית, גרמנית, הולנדית, צרפתית, ספרדית, איטלקית, פורטוגזית ופולנית. קישור