ערכות נתונים של כתב יד

22 מערכי הנתונים הטובים ביותר בקוד פתוח של OCR וכתב יד לאימון דגמי ה-ML שלך

ניתן לייחס את העלייה בשימוש בזיהוי תווים אופטי בעיקר לעלייה בייצור מערכות זיהוי אוטומטיות. כתוצאה מכך, שווי השוק העולמי של טכנולוגיית OCR, מוצמד ל 8.93 $ מיליארד בשנת 2021, צפוי לצמוח ב-CAGR של 15.4% בין 2022 ל-2030.

אבל מהי בעצם טכנולוגיית OCR? ולמה זה משנה משחק לעסקים המפתחים מודלים יעילים של AI? בוא נגלה.

מהו OCR (זיהוי תווים אופטי)?

OCR היא טכנולוגיה הממירה סוגים שונים של מסמכים, כמו מסמכי נייר סרוקים, קובצי PDF או תמונות של טקסט, לנתונים הניתנים לעריכה ולחיפוש. זה עובד לפי:

  • ניתוח מבנה הטקסט בתמונה
  • פירוק הטקסט לשורות ותווים
  • המרת תווים חזותיים אלה לטקסט קריא במכונה

השימושים הנפוצים כוללים:

  • המרת מסמכים סרוקים לקובצי טקסט הניתנים לעריכה
  • דיגיטציה של ספרים מודפסים
  • חילוץ טקסט מתמונות
  • המרת מרשמים בכתב יד לטקסט דיגיטלי
  • זיהוי לוחית רישוי

נתוני אימון Ocr

יתרונות ואתגרים של מערכי נתונים בקוד פתוח

עסקים צריכים להעמיד את היתרונות והאתגרים זה מול זה כדי להבין אם עליהם לבחור בנתונים לשימוש חופשי עבור יישומי ה-ML שלהם.

הטבות

  • הנתונים זמינים בקלות לגישה. בגלל זמינות הנתונים, עלות פיתוח האפליקציה מופחתת באופן משמעותי.
  • הזמן והמאמץ המושקעים באיסוף נתונים עבור היישום מופחתים באופן משמעותי מכיוון שמערך הנתונים זמין.
  • יש שפע של פורומים קהילתיים או קבוצות עזרה שעוזרים ללמוד, להתאים ולייעל את מערך הנתונים.
  • אחד היתרונות העיקריים של מערך הנתונים בקוד פתוח הוא שהוא אינו מטיל הגבלות על התאמה אישית.
  •   נתוני קוד פתוח נגישים לחלק גדול מהאוכלוסייה, מה שמאפשר ניתוח וחדשנות ללא חסמים כספיים.

אתגרים

  • קשה לרכוש את הנתונים הספציפיים לפרויקט. בנוסף, קיימת אפשרות לחסר מידע ושימוש שגוי בנתונים הזמינים.
  • רכישת נתונים קנייניים לוקחת זמן ומאמץ והיא יקרה
  • למרות שזה עשוי להיות קל יותר לרכוש נתונים, הידע ועלות הניתוח עשויים לעלות על היתרון הראשוני.
  • מפתחים אחרים גם עושים שימוש באותם נתונים כדי לפתח אפליקציות.
  • מערכי נתונים אלה חשופים מאוד לפרצות אבטחה, פרטיות והסכמה.

22 ערכות הנתונים הטובות ביותר של כתב יד ו-OCR ללמידת מכונה

מערכי נתונים של ocr בקוד פתוח

מערכי נתונים רבים בקוד פתוח זמינים לפיתוח יישומי זיהוי טקסט. כמה מ-22 הטובים ביותר הם

  1. מסד נתונים של NIST

    ה-NIST או המכון הלאומי למדע מציעים אוסף חופשי לשימוש של למעלה מ-3600 דוגמאות כתב יד עם יותר מ-810,000 תמונות תווים

  2. מסד נתונים של MNIST

    נגזר ממסד הנתונים המיוחדים 1 ו-3 של NSIT, מסד הנתונים של MNIST הוא אוסף של 60,000 מספרים בכתב יד עבור ערכת ההדרכה ו-10,000 דוגמאות עבור ערכת המבחנים. מסד נתונים זה בקוד פתוח עוזר להכשיר מודלים לזהות דפוסים תוך השקעה של פחות זמן בעיבוד מקדים.

  3. זיהוי טקסט

    מסד נתונים של קוד פתוח, מערך הנתונים לזיהוי טקסט מכיל כ-500 תמונות פנימיות וחיצוניות של שלטים, לוחות דלתות, לוחות אזהרה ועוד.

  4. סטנפורד OCR

    פורסם על ידי Stanford, מערך נתונים זה לשימוש חופשי הוא אוסף מילים בכתב יד של MIT Spoken Language Systems Group.

  5. טקסט של Street View

    מערך הנתונים הזה, שנאסף מתמונות Google Street View, כולל תמונות זיהוי טקסט, בעיקר של לוחות ושלטים ברמת הרחוב.

  6. מאגר מסמכים

    מאגר המסמכים הוא אוסף של 941 מסמכים בכתב יד, כולל טבלאות, נוסחאות, שרטוטים, דיאגרמות, רשימות ועוד, מ-189 כותבים.

  7. ביטויי מתמטיקה

    ביטויי המתמטיקה הוא מסד נתונים המכיל 101 סמלים מתמטיים ו-10,000 ביטויים.

  8. Street View מספרי בית

    Street View House Numbers זה, שנאסף מ-Google Street View, הוא מסד נתונים המכיל 73257 ספרות של מספר בית ברחוב.

  9. סביבה טבעית OCR

    הסביבה הטבעית OCR, הוא מערך נתונים של כמעט 660 תמונות ברחבי העולם ו-5238 הערות טקסט.

  10. ביטויי מתמטיקה

    מעל 10,000 ביטויים עם 101+ סמלים מתמטיים.

  11. תווים סיניים בכתב יד

    מערך נתונים של 909,818 תמונות דמויות סיניות בכתב יד, שווה ערך לכ-10 כתבות חדשותיות.

  12. טקסט מודפס בערבית

    לקסיקון של 113,284 מילים תוך שימוש ב-10 גופנים בערבית.

  13. טקסט באנגלית בכתב יד

    טקסט באנגלית בכתב יד על לוח עם למעלה מ-1700 ערכים.

  14. 3000 סביבות תמונות

    3000 תמונות מסביבות שונות, כולל סצנות חיצוניות ופנימיות בתאורה שונה.

  15. נתוני Chars74K

    74,000 תמונות של ספרות אנגלית וקנאדה.

  16. IAM (כתב יד IAM)

    במסד הנתונים של IAM יש 13,353 תמונות טקסט בכתב יד של 657 כותבים מהקורפוס לנקסטר-אוסלו/ברגן של האנגלית הבריטית.

  17. FUNSD (הבנת צורה במסמכים סרוקים רועשים)

    FUNSD כולל 199 טפסים מוערים וסרוקים עם מראה מגוון ורועש, מאתגר להבנת הטפסים.

  18. טקסט OCR

    TextOCR מבסס זיהוי טקסט על טקסט סצינה בצורת שרירותית בתמונות טבעיות.

  19. טוויטר 100K

    Twitter100k הוא מערך נתונים גדול לאחזור חוצה מדיה בפיקוח חלש.

  20. SSIG-SegPlate - פילוח תווים של לוחית רישוי (LPCS)

    מערך נתונים זה מעריך את פילוח תווים של לוחית רישוי (LPCS) עם 101 תמונות של רכבים ביום.

  21. 105,941 תמונות סצנות טבעיות OCR נתונים של 12 שפות

    הנתונים כוללים 12 שפות (6 אסייתיות, 6 אירופאיות) וסצנות וזוויות טבעיות שונות. הוא כולל תיבות תוחמות ברמת השורה ותמלול טקסט. זה שימושי למשימות OCR מרובות שפות.

  22. ערכת נתונים של תמונת שלט הודי

    למערך הנתונים יש תמונות של תמרורים הודיים לסיווג וזיהוי, שצולמו בתנאי מזג אוויר שונים במהלך היום, הערב והלילה.

אלה היו כמה ממערכי הנתונים המובילים בקוד פתוח להכשרת מודלים של ML עבור יישומי זיהוי טקסט. בחירת זה שמתאים לצרכי העסק והאפליקציה שלך עשויה לקחת זמן ומאמץ. עם זאת, עליך להתנסות עם מערכי נתונים אלה לפני שתחליט על המתאים.

[קרא גם: OCR אינפוגרפיקה - הגדרה, יתרונות, אתגרים ומקרי שימוש]

כדי לעזור לך להתקדם לקראת אפליקציית זיהוי טקסט אמינה ויעילה היא שייפ - ספקית הפתרונות הטכנולוגיים הגבוהה ביותר. אנו ממנפים את הניסיון הטכנולוגי שלנו כדי ליצור מערכי נתונים הניתנים להתאמה אישית, אופטימלית ויעילים לאימון OCR עבור פרויקטים שונים של לקוחות. כדי להבין היטב את היכולות שלנו, צור איתנו קשר עוד היום.

שתף חברתי