פתח מערכי נתונים

גלה מערכי נתונים של קוד פתוח שמאפשרים לך ללמד דגמי ML

מערכי נתונים פתוחים כדי להתחיל בעבודה עם דגמי AI/ML

התפוקה של דגמי ה- AI וה- ML שלך טובה רק כמו הנתונים שבהם אתה משתמש לאימון - כך שהדיוק שאתה מיישם על צבירת נתונים ותיוג וזיהוי של נתונים חשוב!

אז אם אתה רוצה להתחיל יוזמה חדשה של AI / ML ועכשיו אתה מבין במהירות שמציאת נתוני הדרכה באיכות גבוהה תהיה אחד ההיבטים המאתגרים יותר בפרויקט שלך מכיוון שמערכי נתונים באיכות גבוהה הם הדלק השומר על AI / מנוע ML פועל. צברנו רשימה של מערכי נתונים פתוחים שניתן להשתמש בהם ולהכשיר את מודלי ה- AI / ML שלך לעתיד בחינם.

התמחות	סוג מידע	שם מערך הנתונים	תעשייה / מחלקה	ביאור / מקרה שימוש	תיאור	קישור
NLP	טקסט	ביקורות על אמזון	מסחר אלקטרוני	ניתוח הסנטימנט	סט של 35 ביקורות ודירוגים של Mn מ- 18 השנים האחרונות בטקסט רגיל עם פרטי משתמש ומוצר.	קישור
NLP	טקסט	נתוני קישור מוויקיפדיה	כללי		יותר מ -4 דקות. מאמרים המכילים 1.9 מיליארד דולר. מילה הכוללת מילים וביטויים וכן פסקאות.	קישור
NLP	טקסט	סטנדפורד סנטימנט טריבנק	בידור	ניתוח הסנטימנט	מערך הערות סנטימנט ליותר מ -10,000 קטעי ביקורות מ- Rotten Tomatoes בפורמט קובץ HTML	קישור
NLP	טקסט	טוויטר סנטימנט חברת התעופה האמריקנית	חברת תעופה	ניתוח הסנטימנט	ציוצים משנת 2015 על US Airlines התחלקו לגוונים חיוביים, שליליים ונייטרליים	קישור
CV	תמונה	תוויות פנים בטבע	כללי	זיהוי פנים	מערך נתונים המכיל מעל 13,000 פרצופים חתוכים עם שתי תמונות שונות לאימון בזיהוי פנים.	קישור
CV	וידאו, תמונה	מערך נתונים של UMDFaces	כללי	זיהוי פנים	מערך מערך הערות המכיל מעל 367,000 פרצופים מלמעלה מ- 8,000 נושאים הכוללים תמונות סטילס ווידאו.	קישור
CV	תמונה	אימג'נט	כללי		מערך נתונים עם למעלה מ- 14 דקות. תמונות בפורמטים שונים של קבצים, המאורגנים על פי היררכיית WordNet.	קישור
CV	תמונה	התמונות הפתוחות של גוגל	כללי		9 דקות. כתובות אתרים לסיווג תמונות ציבוריות ממעל 6,000 קטגוריות.	קישור
NLP	טקסט	מאגר MIMIC טיפול קריטי	בריאות		מערכי נתונים לפיזיולוגיה חישובית עם נתונים שאינם מזוהים של 40,000 חולים בטיפול קריטי. מערך הנתונים מכיל מידע כגון דמוגרפיה, סימנים חיוניים, תרופות וכו '.	קישור
CV	תמונה	משרד הנסיעות והתיירות הלאומי בארה"ב	תיירות		מספק צילומים רחבים מתעשיית התיירות עם מאגרי מידע אמינים, המכסים נושאים כמו נסיעות נכנסות ויוצאות ומידע תיירותי בינלאומי.	קישור
NLP	טקסט	משרד התחבורה	תיירות		מערכי נתונים של תיירות הכוללים פארקים לאומיים, רישומי נהגים, גשרים ומידע מסילות וכו '.	קישור
NLP	אודיו	קורפוס אודיו של Flickr Audio	כללי		למעלה מ- 40 כיתובים מדוברים מ- 8,000 תצלומים המיועדים לדפוסי דיבור ללא פיקוח	קישור
NLP	אודיו	מערך נתונים של פקודות דיבור	כללי	זיהוי דיבור, הערת שמע	התבטאויות ארוכות של שנייה מאלפי אנשים, לבניית ממשק קולי בסיסי.	קישור
NLP	אודיו	מערכי אודיו סביבתיים	כללי		מערכי נתוני שמע סביבתיים המכילים צליל של טבלאות אירועים ושולחנות סצנה אקוסטיים.	קישור
NLP	טקסט	מערך נתוני מחקר פתוח COVID-19	בריאות	AI רפואי	מערך מחקר המורכב מ- 45,000 מאמרים מדעיים בנושא COVID-19 ומשפחת הנגיפים של הנגיף.	קישור
CV	תמונה	מערך הנתונים הפתוח של Waymo	כלי רכב		מערכי הנתונים הנהיגה האוטונומיים המגוונים ביותר שפרסמה Waymo	קישור
CV	תמונה	גנום חזותי	כללי	כיתוב תמונה	בסיס ידע חזותי עם כיתוב מפורט של מעל 100K תמונות	קישור
CV	תמונה	תווית	ממשל ציבורי.		סט גדול של תמונות עם הערות הנגישות דרך Labelme Matlab	קישור
CV	תמונה	100	כללי		מעל 100 אובייקטים מגוונים שצולמו מכמה זוויות (כלומר 360 מעלות)	קישור
CV	תמונה	סט נתונים של כלבי סטנפורד	כללי		למעלה מ -20,500 תמונות מסווגות לסט תמונות של 120 גזעי כלבים שונים	קישור
CV	תמונה	זיהוי סצנה מקורה	כללי	זיהוי סצנה	מערך נתונים ספציפי המורכב מ- 15620 תמונות מ- 67 קטגוריות פנים לבניית מודלים לזיהוי סצינות	קישור
CV	תמונה	VisualQA	כללי		מערך נתונים הכולל שאלות פתוחות הנוגעות ל 265,016 תמונות הדורשות הבנת ראייה והבנת שפה כדי להגיב.	קישור
NLP	טקסט	מערך נתונים לניתוח רגש רב-תחומי	מסחר אלקטרוני	ניתוח הסנטימנט	מערך נתונים המכיל ביקורות מוצרים מאמזון	קישור
NLP	טקסט	ביקורות IMDB	בידור	ניתוח הסנטימנט	מערך נתונים המכיל 25000 סקירת סרטים לניתוח סנטימנט	קישור
NLP	טקסט	סנטימנט 140	כללי	ניתוח הסנטימנט	מערך נתונים המכיל 160,000 ציוצים עם סמלי הבעה שהוסרו מראש לדיוק גבוה יותר	קישור
NLP	טקסט	בלוגר קורפוס	כללי	אנליסיס של מפתח	מערך נתונים המכיל 681,288 פוסטים בבלוג מ- blogger.com המורכב ממינימום 200 מופעים של מילים באנגלית נפוצה.	קישור
NLP	טקסט	סכנה	כללי	הדרכת צ'טבוט	מערך נתונים עם יותר מ- 200,000 שאלות שניתן להשתמש בהן כדי להכשיר מודלים של למידה חישובית להגיב אוטומטית בצורה חכמה	קישור
NLP	טקסט	אוסף ספאם SMS באנגלית	טלקום	זיהוי דואר זבל	מערך הודעות זבל המורכב מ -5,574 מסרונים באנגלית	קישור
NLP	טקסט	ביקורות Yelp	כללי	ניתוח הסנטימנט	מערך נתונים עם סקירה של יותר מ -5 דקות שפורסם על ידי Yelp	קישור
NLP	טקסט	ה- Spambase של UCI	מִפְעָל	זיהוי דואר זבל	מערך נתונים גדול של הודעות דואר זבל, שימושי לסינון דואר זבל.	קישור
CV	וידאו, תמונה	ברקלי DeepDrive BDD100k	כלי רכב	כלי רכב אוטונומיים	אחד מערכי הנתונים הגדולים ביותר לבינה עצמית של AI המכיל 1,100 שעות חוויות נהיגה בלמעלה מ- 100,000 סרטונים מתקופות שונות ביום מניו יורק ואזור סן פרנסיסקו.	קישור
CV	וִידֵאוֹ	Comma.ai	כלי רכב	כלי רכב אוטונומיים	מערך נהיגה בכביש המהיר בן 7 שעות הכולל מידע על מהירות המכונית, האצה, זווית ההיגוי וקואורדינטות ה- GPS	קישור
CV	וידאו, תמונה	מערך נתונים של עיר נוף	כלי רכב	תווית סמנטית לרכב אוטונומי	מערך של 5,000 הערות ברמת הפיקסלים בתוספת סט גדול יותר של 20,000 פריימים עם רישום חלש ברצפי וידאו סטריאו, שהוקלטו מ -50 ערים שונות	קישור
CV	תמונה	מערך נתונים של תמרור KUL בלגיה	כלי רכב	כלי רכב אוטונומיים	למעלה מ- 10000 הערות תמרורים מאזור פלנדריה, המבוססות על תמרורים נבדלים פיזית מכל רחבי בלגיה.	קישור
CV	תמונה	LISA: מעבדה למכוניות חכמות ובטוחות, מערכי נתונים של UC סן דייגו	כלי רכב	כלי רכב אוטונומיים	מערך נתונים עשיר המכיל תמרורים, איתור רכבים, רמזורים ודפוסי מסלול.	קישור
CV	תמונה	CIFAR-10	כללי	זיהוי אובייקט	מערך כולל 50,000 תמונות ו -10,000 תמונות בדיקה (כלומר 60,000 תמונות 32 × 32 צבעוניות בעשרה כיתות) לזיהוי אובייקטים.	קישור
CV	תמונה	אופנה MNIST	אופנה		מערך תמונות המורכב מ- 60,000 דוגמאות ומערכת בדיקות של 10,000 דוגמאות בתמונות 28 × 28 בגווני אפור, המשויכות לתווית מ -10 כיתות.	קישור
CV	תמונה	מערך נתונים IMDB-Wiki	בידור	זיהוי פנים	מערך נתונים גדול של תמונות פנים עם תוויות כמו מין וגיל. מתוך סך 523,051 תמונות הפנים, 460,723 תמונות מתקבלות מ -20,284 ידוענים מ- IMDB ו- 62,328 מוויקיפדיה.	קישור
CV	וִידֵאוֹ	קינטיקה -700	כללי		עבור כל מעמד פעולה, מערך הנתונים האיכותי מורכב מ -650,000 קטעי וידיאו ומקיף 700 שיעורי פעולה אנושיים עם לפחות 600 קליפים. הנה, כל קליפ נמשך 10 שניות בערך.	קישור
CV	תמונה	MS קוקו	כללי	איתור אובייקטים, פילוח	מערך הנתונים מכיל 328 תמונות ויש לו סך של 2.5 Mn מופעים ו- 91 תמונות אובייקט לאימון מודלים קשורים של זיהוי אובייקטים, פילוח וכיתוב נתונים.	קישור
CV	תמונה	מערך נתונים של תומך אנושי MPII	כללי		בערך 25 תצלומים המכילים למעלה מ- 40 אנשים עם מפרקי גוף מסומנים כלולים במערך הנתונים, המשמש לניסוח הערכת תנוחות אנושיות. בסך הכל מערך הנתונים מכיל 410 פעילויות אנושיות וכל תמונה מסופקת עם תווית פעילות.	קישור
CV	תמונה	פתח תמונות	כללי	הערות על מיקום אובייקט	מערך תמונות עם כ- 9 תמונות Mn עם הערות עם תוויות ברמת תמונה, תיבות התוחמות של אובייקטים, פילוח אובייקטים וכו '. מערך הנתונים כולל גם 16 Mn. תיבות תוחמות עבור 600 כיתות אובייקט בתמונות 1.9 Mn.	קישור
CV	וִידֵאוֹ	פלטפורמת אפולו פתוחה, מאת Baidu Inc, סין	כלי רכב	תיבת גבולות, LiDAR	מערך נהיגה אוטונומי עשיר, המספק למפתחים את הנתונים הנדרשים בנהיגה אוטונומית כדי להאיץ את יעילות האיטרציה החדשנית.	קישור
CV	וידאו, תמונה	ארגו, מאת ארגו, ארה"ב	כלי רכב	תיבת גבולות, זרימה אופטית, תווית התנהגותית, תווית סמנטית, סימון נתיבים	מערך נתונים עם נהיגה עצמית המורכב ממפות HD עם מטא נתונים גיאומטריים וסמנטיים, כלומר קווי נתיב, כיוון נתיב ואזור הניתן לנסיעה. מערך הנתונים משמש לאימון מודלים של ML, ליצירת אלגוריתמי תפיסה מדויקים יותר שיעזרו לרכבים בנהיגה עצמית לנווט בבטחה.	קישור
CV	וִידֵאוֹ	רמזורים קטנים של בוש, מאת חברת בוש צפון אמריקה	כלי רכב	תיבת גבולות	מערך נתונים הכולל 13427 תמונות מצלמה ברזולוציה 1280 * 720 לבניית מערכת לזיהוי רמזורים מבוססת-ראייה. במערך הנתונים יש יותר מ- 24000 רמזורים מוסברים.	קישור
CV	וִידֵאוֹ	Brain4Cars, מאת אוניברסיטת קורנל, ארצות הברית	כלי רכב	תווית התנהגותית	מערך נתונים המורכב ממערך של חיישני תא (מצלמות, חיישני מישוש, מכשירים חכמים וכו ') במטרה לחלץ נתונים סטטיסטיים שימושיים על ערנות הנהג. האלגוריתמים שלנו עשויים לזהות נהגים מנומנמים או מוסחים ולהגביר את האזעקות הדרושות לשיפור ההגנה.	קישור
CV	תמונה	CULane, מאת יוניב הסינית. של הונג קונג, בייג'ינג, סין	כלי רכב	סימון נתיבים	מערך נתונים של ראיית מחשב בנושא איתור נתיבי תנועה, הכולל 55 שעות סרטונים, מהם חולפו 133,235 (ערכת אימונים 88880, ערכת אימות 9675 וערכת בדיקות 34680). הוא נאסף על ידי מצלמות המותקנות על שישה כלי רכב שונים המונעים על ידי נהגים שונים בבייג'ינג.	קישור
CV	וִידֵאוֹ	דייוויס, מאת יוניב. של ציריך, ETH ¨ ציריך, גרמניה, שוויץ	כלי רכב		מערך אימונים לנהיגה מקצה לקצה ברכב המשתמש במצלמת DAVIS אירוע + מסגרת. נתוני רכב כגון היגוי, מצערת, GPS וכו 'משמשים להערכת מיזוג נתוני מסגרות ואירועים לאפליקציות רכב.	קישור
CV	וִידֵאוֹ	DBNet, מאת שנחאי ג'יאו טונג יוניב., אוניברסיטת שיאמן, סין	כלי רכב	נקודת ענן, LiDAR	נתוני נהיגה של 1000 ק"מ בעולם האמיתי, הכוללים וידיאו מיושר, ענן נקודה, GPS והתנהגות נהג לצורך מחקר מעמיק על התנהגויות נהיגה.	קישור
CV	וִידֵאוֹ	ד"ר (עין), מאת יוניב. של מודנה ורג'יו אמיליה, מודנה, איטליה	כלי רכב	תווית התנהגותית	מערך נתונים המכיל 74 רצפי וידיאו בני 5 דקות כל אחד, שהוסרו בלמעלה מ -500,000 פריימים. מערך הנתונים מורכב ממיקומים המופנים לגאוגרפיה, מהירות נהיגה, מסלול, וגם מתייג קבועי מבט לנהגים ושילובם הזמני ומספקים מפות ספציפיות למשימה.	קישור
CV	וִידֵאוֹ	מדרחוב ETH (2009), מאת ETH ציריך, ציריך, שוויץ	כללי	תיבת גבולות	מערך נתונים של 74 רצפי וידיאו בני 5 דקות כל אחד, עם הערות ביותר מ -500,000 פריימים. מערך הנתונים מספק מיקומים עם הפניה גיאוגרפית, מהירות נהיגה, כיוון, וגם מתייג קיבועי מבט לנהגים ושילובם הזמני, כולל מפות ספציפיות למשימה.	קישור
CV	וִידֵאוֹ	פורד (2009), מאת יוניב. של מישיגן, מישיגן, ארה"ב	כלי רכב	Bounding Box,, LiDAR	מערך נתונים שהורכב על ידי רכב יבשתי אוטומטי חמוש בסורק תלת מימד של וולודין, שני לידרים של ריג צופה קדימה, יחידת מדידה אינרציאלית טכנית וצרכנית (IMU) ומערכת מצלמות בכל רחבי כיוון נקודתית.	קישור
CV	וִידֵאוֹ	HCI סטריאו מאתגר, מחקר תאגיד בוש, הילדסהיים, גרמניה	כללי		מערך של כמה מיליוני פריימים מסצנות וידיאו שנתפסו הכוללות מגוון רחב של תנאי מזג אוויר שונים, שכבות תנועה מרובות ועומק; מצבים בעיר ובכפר וכו '.	קישור
CV	וִידֵאוֹ	JAAD, מאת אוניברסיטת יורק, אוקראינה, קנדה	כלי רכב	תיבת גבולות, תווית התנהגותית	"JAAD הוא מערך נתונים ללימוד תשומת לב משותפת בהקשר לנהיגה אוטונומית. ההתמקדות היא בהתנהגויות הולכי רגל ונהג בנקודת המעבר וגורמים המשפיעים עליהם. לשם כך, מערך JAAD מספק אוסף מצוין של 346 סרטונים קצרים. קליפים (באורך 5-10 שניות) שהופקו ממעל 240 שעות נהיגה ממספר מקומות בצפון אמריקה ובמזרח אירופה. תיבות הגבול עם תגי סתימה משמשות לכל הולכי הרגל שהופכים את מערך הנתונים הזה לאיתור הולכי רגל. הערות התנהגות מציינות התנהגויות להולכי רגל. אשר מתקשרים עם הנהג או דורשים התייחסות אליו. לכל סרטון ישנם מספר תגים (מזג אוויר, מיקומים וכו ') ותוויות התנהגות עם חותמת זמן (למשל עצירה, הליכה, הסתכלות וכו'). בנוסף, רשימה של מאפיינים דמוגרפיים היא מסופק לכל הולך רגל (למשל גיל, מין, כיוון תנועה וכו ') וכן רשימה של אלמנטים שנראים לעין של תנועה (למשל תמרור עצור, תמרור וכו') בכל מסגרת.	קישור
CV	וִידֵאוֹ	KAIST Urban, מאת KAIST, דרום קוריאה	כללי	LiDAR	איסוף הנתונים כולל חיישני מיקום רבים לנתוני LiDAR ותמונות סטריאו המכוונים לאזור עירוני מורכב מאוד (למשל אזורי מטרופולין, מבנים מורכבים ואזורי מגורים).	קישור
CV	תמונה	תמרור LISA, מאת Univ. של קליפורניה, סן דייגו, ארצות הברית	כלי רכב	תיבת גבולות	ערכת מערך הנתונים המכילה סרטונים ומסגרות עם הערות המכילות תמרורים בארה"ב. הוא שוחרר בשני שלבים, אחד עם התמונות בלבד ואחד עם תמונות וסרטונים.	קישור
CV	תמונה	Mapillary Vistas, מאת Mapillary AB, גלובל	כלי רכב	תווית סמנטית	מערך צילום ברמת הרחוב לפרשנות סצנות רחוב ברחבי העולם עם הערות אנושיות מדויקות לפיקסלים וספציפי למופע.	קישור
CV	וידאו, תמונה	סמנטי KITTI, מאת אוניברסיטת בון, קרלסרוהה, גרמניה	כלי רכב	תיבת גבולות, תווית סמנטית, סימון נתיבים	מערך נתונים הכולל הערה סמנטית לכל רצפי ה- Benchmark של Odometry. מערך הנתונים מציין סוגים שונים של תנועה זזה ולא זזה: כולל מכוניות, אופניים, אופניים, הולכי רגל ורוכבי אופניים, המאפשרים ללמוד חפצים בזירה.	קישור
CV	וִידֵאוֹ	מסלול סטנפורד, מאת אוניברסיטת סטנפורד, ארצות הברית	כלי רכב	איתור / סיווג אובייקטים LiDAR, GPS, קודים	מערך נתונים הכולל 14,000 מסלולי עצמים שכותרתו כפי שנצפה על ידי Velodyne HDL-64E S2 LIDAR בסצינות רחוב טבעיות, שניתן להשתמש בהם להכשרת מודלים של למידת מכונה לזיהוי אובייקטים תלת-ממדיים.	קישור
CV	וידאו, תמונה	מערך הנתונים של Boxy, מאת בוש, ארצות הברית	כלי רכב	איתור תיבת גבולות / רכב	מערך נתוני זיהוי רכב המכיל 2 מיליון כלי רכב מסומנים לאימון וניתוח אסטרטגיות לזיהוי עצמים למכוניות בנהיגה עצמית בכבישים מהירים.	קישור
CV	וִידֵאוֹ	הכביש המהיר TME, על ידי אוניברסיטת צ'כיה הצפונית, צפון איטליה	כלי רכב	תיבת גבולות	מערך נתונים של 28 קליפים במשך 27 דקות בסך הכל התחלק למסגרות של 30,000+ הערות לרכב. ההערה הופקה באופן אוטומטי למחצה באמצעות הנתונים מסורק הלייזר. איסוף נתונים זה כולל תרחישי תנועה משתנים, מספר נתיבים, עקמומיות דרכים ותאורה, המכסים חלק ניכר מתנאי הרכישה המלאה.	קישור
CV	וִידֵאוֹ	לאמות ללא פיקוח, מאת בוש, ארצות הברית	כלי רכב	סימון נתיבים, LiDAR	מערך הלמאס ללא פיקוח הועלה על ידי יצירת מפות נהיגה אוטומטיות בחדות גבוהה, כולל סמני מסלול מבוססי Lidar. ניתן ליישר את הרכב האוטונומי כנגד מפות אלה וסימני הנתיב מוקרנים במסגרת המצלמה. ההקרנה התלת-ממדית מותאמת על ידי מזעור הפער בין סמני התמונה שנצפו כבר.	קישור
NLP	אודיו	Facebook AI רב לשוני LibriSpeech (MLS)	כללי	ביאור שמע / זיהוי דיבור	Facebook AI Multilingual LibriSpeech (MLS) הוא מערך נתונים פתוח בקנה מידה גדול שנועד לסייע לקידום המחקר בזיהוי דיבור אוטומטי (ASR). MLS מספק יותר מ- 50,000 שעות שמע בשמונה שפות: אנגלית, גרמנית, הולנדית, צרפתית, ספרדית, איטלקית, פורטוגזית ופולנית.	קישור

פתח מערכי נתונים

מערכי נתונים פתוחים כדי להתחיל בעבודה עם דגמי AI/ML

שירותי נתונים AI

התמחות

התעשייה

מוצרים

חברה

משאבים

צור קשר