ראייה ממוחשבת

22+ מערכי נתונים בקוד פתוח המבוקשים ביותר עבור ראיית מחשב

אלגוריתם AI טוב רק כמו הנתונים שאתה מזין אותו.

זו לא אמירה נועזת ולא לא שגרתית. בינה מלאכותית הייתה יכולה להיראות מופרכת למדי לפני כמה עשורים, אבל הבינה המלאכותית ולמידת מכונה עברו כברת דרך מאוד ארוכה מאז.

ראיית מחשב עוזר למחשבים להבין ולפרש תוויות ותמונות. כאשר אתה מאמן את המחשב שלך באמצעות הסוג הנכון של תמונות, הוא יכול לקבל את היכולת לזהות, להבין ולזהות תווי פנים שונים, לזהות מחלות, לנהוג בכלי רכב אוטונומיים, וגם להציל חיים באמצעות סריקת איברים רב מימדית.

שוק ה-Computer Vision צפוי להגיע $ 144.46 מיליארד דולר עד 2028 מסכום צנוע של 7.04 מיליארד דולר בשנת 2020, צמיחה ב-CAGR של 45.64% בין 2021 ל-2028.

חלק ממקרי השימוש של ראייה ממוחשבת הם:

  • הדמיה רפואית
  • רכב אוטונומי
  • זיהוי פנים ואובייקטים
  • זיהוי ליקויים
  • זיהוי סצינה

אל האני מערך נתונים של תמונות אתה מאכיל ומאמן את משימות הלמידה והראייה הממוחשבת שלך הן חיוניות להצלחת פרויקט הבינה המלאכותית שלך. די קשה להשיג מערך נתונים איכותי. בהתאם למורכבות הפרויקט שלך, זה יכול לקחת בין כמה ימים לכמה שבועות כדי לקבל מערכי נתונים אמינים ורלוונטיים למטרות ראייה ממוחשבת.

כאן, אנו מספקים לך מגוון (מסווג לנוחותך) של מערכי נתונים בקוד פתוח שבהם תוכל להשתמש מיד.

רשימה מקיפה של מערכי נתונים של ראיית מחשב

כללי:

  1. אימג'נט (קישור)

    ImageNet הוא מערך נתונים בשימוש נרחב, והוא מגיע עם 1.2 מיליון תמונות מדהימות המחולקות ל-1000 קטגוריות. מערך נתונים זה מאורגן לפי ההיררכיה של WorldNet ומסווג לשלושה חלקים - נתוני ההדרכה, תוויות התמונה ונתוני האימות.

  2. קינטיקה 700 (קישור)

    Kinetics 700 הוא מערך נתונים עצום באיכות גבוהה עם יותר מ-650,000 קליפים של 700 כיתות פעולה אנושית שונות. בכל אחת מהתובענות הייצוגיות יש כ-700 קטעי וידאו. לקליפים במערך הנתונים יש אינטראקציות בין אדם לאובייקט ובין אדם לאדם, שמתגלים כמועילים למדי בעת זיהוי פעולות אנושיות בסרטונים.

  3. CIFAR-10 (קישור)

    CIFAR 10 הוא אחד ממערכי הנתונים הגדולים ביותר של ראיית מחשב המתגאה ב-60000 תמונות צבעוניות בגודל 32 x 32 המייצגות עשר מחלקות שונות. בכל כיתה יש כ-6000 תמונות המשמשות לאימון אלגוריתמי ראייה ממוחשבת ולמידת מכונה.

זיהוי פנים:

זיהוי פנים

  1. עם התווית פנים בטבע (קישור)

    עם התווית Faced in the Wild הוא מערך נתונים ענק המכיל יותר מ-13,230 תמונות של כמעט 5,750 אנשים שזוהו מהאינטרנט. מערך פרצופים זה נועד להקל על לימוד זיהוי פנים ללא הגבלה.

  2. CASIA WebFace (קישור)

    CASIA Web face הוא מערך נתונים מעוצב היטב המסייע למידת מכונה ומחקר מדעי על זיהוי פנים ללא הגבלה. עם יותר מ-494,000 תמונות של כמעט 10,000 זהויות אמיתיות, הוא אידיאלי למשימות זיהוי ואימות פנים.

  3. ערכת נתונים של UMD Faces (קישור)

    UMD מתמודד עם מערך נתונים בעל הערות טוב המכיל שני חלקים - תמונות סטילס ומסגרות וידאו. מערך הנתונים כולל יותר מ-367,800 הערות פנים ו-3.7 מיליון פריימים של סרטונים מוערים של נושאים.

זיהוי כתב יד:

  1. מסד נתונים של MNIST (קישור)

    MNIST הוא מסד נתונים המכיל דוגמאות של ספרות בכתב יד מ-0 עד 9, ויש לו 60,000 ו-10,000 תמונות הדרכה ובדיקה. פורסם בשנת 1999, MNIST מקל על בדיקת מערכות עיבוד תמונה ב-Deep Learning.

  2. ערכת נתונים של תווים מלאכותיים (קישור)

    ערכת נתונים מלאכותית היא, כפי שהשם מרמז, נתונים שנוצרו באופן מלאכותי המתארים את מבנה השפה האנגלית בעשר אותיות גדולות. זה מגיע עם יותר מ-6000 תמונות.

בואו נדון היום בדרישת נתוני ההכשרה שלך ב- AI.

איתור אובייקט:

  1. MS COCO (קישור)

    MS COCO או Common Objects in Context הוא מערך נתונים לזיהוי אובייקטים וכתוביות.

    יש לו יותר מ-328,000 תמונות עם זיהוי נקודת מפתח, זיהוי ריבוי אובייקטים, כיתוב והערות מסכת פילוח. זה מגיע עם 80 קטגוריות אובייקטים וחמש כיתובים לכל תמונה.

  2. LSUN(קישור)

    ל-LSUN, קיצור של Large-scale Scene Understanding, יש יותר ממיליון תמונות מתויגות ב-20 אובייקטים ו-10 קטגוריות סצינות. בחלק מהקטגוריות יש קרוב ל-300,000 תמונות, כאשר 300 תמונות מיועדות במיוחד לאימות ו-1000 תמונות לנתוני בדיקה.

  3. חפצי בית(קישור)

    מערך הנתונים של אובייקטים ביתיים מכיל תמונות מוערות של אובייקטים אקראיים מרחבי הבית - מטבח, סלון וחדר רחצה. מערך הנתונים הזה כולל גם כמה סרטונים עם הערות ו-398 תמונות ללא הערות המיועדות לבדיקה.

כלי רכב:

  1. מערך נתונים של נוף עירוני (קישור)

    Cityscape הוא מערך הנתונים שאליו ניתן ללכת כאשר מחפשים רצפי וידאו שונים שהוקלטו מסצנות רחוב של מספר ציטוטים. תמונות אלו צולמו לאורך זמן ובתנאי מזג אוויר ואור שונים. ההערות מיועדות ל-30 כיתות של תמונות המחולקות לשמונה קטגוריות שונות.

  2. בארקלי דיפ דרייב (קישור)

    Barkley DeepDrive תוכנן במיוחד לאימון רכב אוטונומי, ויש לו יותר מ-100 אלף קטעי וידאו מוערים. זהו אחד מנתוני ההדרכה המועילים ביותר עבור כלי רכב אוטונומיים על ידי שינוי תנאי הדרך והנהיגה.

  3. אדר (קישור)

    ל-Mapillary יש למעלה מ-750 מיליון סצנות רחוב ותמרורים ברחבי העולם, וזה שימושי מאוד באימון מודלים של תפיסה חזותית בלמידת מכונה ובאלגוריתמים של AI. זה מאפשר לך לפתח רכבים אוטונומיים הנותנים מענה לתנאי תאורה ומזג אוויר ונקודות מבט שונות.

הדמיה רפואית:

  1. קוביד-19 פתח מערך נתונים של מחקר (קישור)

    מערך הנתונים המקורי הזה כולל כ-6500 פילוחי ריאה מצולעים פיקסלים לגבי צילומי חזה AP/PA. בנוסף, זמינות 517 תמונות של צילומי רנטגן של חולי Covid-19 עם תגים המכילים את השם, המיקום, פרטי הקבלה, התוצאה ועוד.

  2. מסד נתונים של NIH של 100,000 צילומי חזה (קישור)

    מסד הנתונים של NIH הוא אחד ממערכי הנתונים הנרחבים ביותר הזמינים לציבור המכילים 100,000 תמונות רנטגן של החזה ונתונים קשורים שימושיים עבור קהילת המדע והמחקר. יש לו אפילו תמונות של חולים עם מצבי ריאות מתקדמים.

  3. אטלס לפתולוגיה דיגיטלית (קישור)

    Atlas of Digital Pathology מציע מספר תמונות תיקון היסטופתולוגיות, יותר מ-17,000 בסך הכל, מקרוב ל-100 שקופיות מוערות של איברים שונים. מערך נתונים זה שימושי בפיתוח תוכנת ראייה ממוחשבת ותבניות זיהוי.

זיהוי סצינות:

זיהוי סצנה

  1. זיהוי סצנה מקורה (קישור)

    זיהוי סצנות פנימיות הוא מערך נתונים מסווג מאוד עם כמעט 15620 תמונות של אובייקטים ותפאורה פנימית לשימוש בלמידת מכונה ואימון נתונים. זה מגיע עם למעלה מ-65 קטגוריות, ולכל קטגוריה יש מינימום של 100 תמונות.

  2. xView (קישור)

    כאחד ממערכי הנתונים המוכרים ביותר הזמינים לציבור, xView מכיל טונות של תמונות תקורה מוערות מסצנות מורכבות וגדולות שונות. עם כ-60 מחלקות ויותר ממיליון מופעים של אובייקטים, המטרה של מערך נתונים זה היא לספק הקלה טובה יותר באסונות באמצעות תמונות לוויין.

  3. מקומות (קישור)

    ל-Places, מערך נתונים שנתרם על ידי MIT, יש יותר מ-1.8 מיליון תמונות מ-365 קטגוריות שונות של סצנות. יש כ-50 תמונות בכל אחת מהקטגוריות הללו לאימות ו-900 תמונות לבדיקה. לימוד תכונות סצינות עמוקות ליצירת משימות זיהוי סצינות או זיהוי חזותי אפשרי.

בידור:

  1. ערכת נתונים של IMDB WIKI (קישור)

    IMDB - Wiki הוא אחד ממאגרי המידע הציבוריים הפופולריים ביותר של פרצופים המסומנים בצורה נאותה עם גיל, מין ושמות. יש לו גם כ-20 אלף פרצופים של מפורסמים ו-62 אלף מויקיפדיה.

  2. סלבס פרצופים (קישור)

    Celeb Faces הוא מאגר מידע רחב היקף עם 200,000 תמונות מוערות של ידוענים. התמונות מגיעות עם וריאציות של רעשי רקע ותנוחה, מה שהופך אותן לבעלי ערך עבור מערכי מבחן אימון במשימות ראייה ממוחשבת. זה מועיל מאוד להשגת דיוק גבוה יותר בזיהוי פנים, עריכה, לוקליזציה של חלקי הפנים ועוד.

עכשיו, כשיש לך רשימה עצומה של מערכי תמונות בקוד פתוח כדי לתדלק את מכונות הבינה המלאכותית שלך. התוצאה של מודלים של בינה מלאכותית ולמידת מכונה תלויה בעיקר באיכות מערכי הנתונים שאתה מאכיל ומכשיר אותם. אם אתה רוצה שמודל הבינה המלאכותית שלך יזרוק תחזיות מדויקות, הוא צריך מערכי נתונים איכותיים שמצטברים, מתויגים ומתויגים לשלמות. כדי להגביר את הצלחת מערכת הראייה הממוחשבת שלך, עליך להשתמש במאגרי תמונות איכותיים הרלוונטיים לחזון הפרויקט שלך. אם אתה מחפש עוד מערכי נתונים כאלה לחץ כאן

שתף חברתי

אולי גם תאהב