ערכות נתונים של כתב יד

15 מערכי הנתונים הטובים ביותר לכתב יד בקוד פתוח לאימון דגמי ה-ML שלך

עולם העסקים משתנה בקצב פנומנלי, אך הטרנספורמציה הדיגיטלית הזו אינה כמעט רחבת טווח כפי שהיינו רוצים שהיא תהיה. אנשים עדיין מטפלים במסמכים פיזיים בפעילות היומיומית שלהם, מתאגידים גדולים ועד לעסקים בקנה מידה קטן. למרות שתדירות השימוש פחתה במידה ניכרת, היא לא בוטלה לחלוטין. במקום תהליך שלוקח זמן של סריקת מסמכים לשימוש דיגיטלי, תוך שימוש בגרסה העדכנית ביותר OCR יעיל ויעיל בזמן.

ניתן לייחס את העלייה בשימוש בזיהוי תווים אופטי בעיקר לעלייה בייצור מערכות זיהוי אוטומטיות. כתוצאה מכך, שווי השוק העולמי של טכנולוגיית OCR, מוצמד ל 8.93 $ מיליארד בשנת 2021, צפוי לצמוח ב-CAGR של 15.4% בין 2022 ל-2030.

אבל מהי בעצם טכנולוגיית OCR? ולמה זה משנה משחק לעסקים המפתחים מודלים יעילים של AI? בוא נגלה.

מה זה OCR?

לחילופין המכונה זיהוי טקסט, OCR או זיהוי תווים אופטי היא תוכנית המחלצת נתונים מודפסים או כתובים ממסמכים סרוקים, קובצי PDF בתמונה בלבד והערות בכתב יד לפורמט הניתן לקריאה במכונה. התוכנה מוציאה כל אות מהתמונה ומשלבת אותן למילים ומשפטים ובכך מקלה על הגישה והעריכה של המסמכים בצורה דיגיטלית.

מהם מערכי נתונים בקוד פתוח?

ישנם מספר מקומות שבהם יש לטכנולוגיית OCR פוטנציאל גדול למינוף. מקומות מסוימים כוללים את שדה התעופה, הוצאת ספרים אלקטרוניים, פרסומות, בנקים ומערכות שרשרת אספקה. עם זאת, כדי שהיישומים ישרתו את מטרתם, הם צריכים לעבור הכשרה ספציפית לפרויקט מערכי נתונים של זיהוי תווים אופטי.

יעילות האפליקציה תלויה במידה רבה באיכות מערך הנתונים ובמתודולוגיית ההדרכה המעורבת. עם זאת, מציאת איכות דיגיטלית ו מערכי נתונים בכתב יד קשה ליישום. לכן, חברות רבות משתמשות במערך נתונים של קוד פתוח או חופשי לשימוש במקום אלה קנייניים.

יתרונות ואתגרים של מערכי נתונים בקוד פתוח

עסקים צריכים להעמיד את היתרונות והאתגרים זה מול זה כדי להבין אם עליהם לבחור בנתונים לשימוש חופשי עבור יישומי ה-ML שלהם.

הטבות

  • הנתונים זמינים בקלות לגישה. בגלל זמינות הנתונים, עלות פיתוח האפליקציה מופחתת באופן משמעותי.
  • הזמן והמאמץ המושקעים באיסוף נתונים עבור היישום מופחתים באופן משמעותי מכיוון שמערך הנתונים זמין.
  • יש שפע של פורומים קהילתיים או קבוצות עזרה שעוזרים ללמוד, להתאים ולייעל את מערך הנתונים.
  • אחד היתרונות העיקריים של מערך הנתונים בקוד פתוח הוא שהוא אינו מטיל הגבלות על התאמה אישית.
  •   נתוני קוד פתוח נגישים לחלק גדול מהאוכלוסייה, מה שמאפשר ניתוח וחדשנות ללא חסמים כספיים.

אתגרים

  • קשה לרכוש את הנתונים הספציפיים לפרויקט. בנוסף, קיימת אפשרות לחסר מידע ושימוש שגוי בנתונים הזמינים.
  • רכישת נתונים קנייניים לוקחת זמן ומאמץ והיא יקרה
  • למרות שזה עשוי להיות קל יותר לרכוש נתונים, הידע ועלות הניתוח עשויים לעלות על היתרון הראשוני.
  • מפתחים אחרים גם עושים שימוש באותם נתונים כדי לפתח אפליקציות.
  • מערכי נתונים אלה חשופים מאוד לפרצות אבטחה, פרטיות והסכמה.

15 ערכות הנתונים הטובות ביותר של כתב יד ו-OCR ללמידת מכונה

מערכי נתונים של ocr בקוד פתוח

מערכי נתונים רבים בקוד פתוח זמינים לפיתוח יישומי זיהוי טקסט. כמה מ-15 הטובים ביותר הם

  1. מערך הנתונים של ICDAR

    לכנס הבינלאומי לניתוח וזיהוי מסמכים יש מאגר של 229 אימונים ו-233 תמונות בדיקה, יחד עם הערות. הוא משמש כנקודת אמת להערכת זיהוי טקסט.

  2. מערך נתונים של IIIT 5K-Word

    נלקח מחיפוש תמונות בגוגל, IIIT 5K-word הוא אוסף של מילים משלטים, שלטי חוצות, לוחיות מספר ופוסטרים. הוא מכיל תמונות מילים חתוכות ב-5K מה שהופך אותו לאחד האוספים הנרחבים ביותר של מערכי נתונים לזיהוי טקסט הזמינים.

  3. מסד נתונים של NIST

    ה-NIST או המכון הלאומי למדע מציעים אוסף חופשי לשימוש של למעלה מ-3600 דוגמאות כתב יד עם יותר מ-810,000 תמונות תווים

  4. מסד נתונים של MNIST

    נגזר ממסד הנתונים המיוחדים 1 ו-3 של NSIT, מסד הנתונים של MNIST הוא אוסף של 60,000 מספרים בכתב יד עבור ערכת ההדרכה ו-10,000 דוגמאות עבור ערכת המבחנים. מסד נתונים זה בקוד פתוח עוזר להכשיר מודלים לזהות דפוסים תוך השקעה של פחות זמן בעיבוד מקדים.

  5. זיהוי טקסט

    מסד נתונים של קוד פתוח, מערך הנתונים לזיהוי טקסט מכיל כ-500 תמונות פנימיות וחיצוניות של שלטים, לוחות דלתות, לוחות אזהרה ועוד.

  6. סטנפורד OCR

    פורסם על ידי Stanford, מערך נתונים זה לשימוש חופשי הוא אוסף מילים בכתב יד של MIT Spoken Language Systems Group.

  7. DDI-100

    ה-DDI-100, שנקרא אחרת, ערכת הנתונים של Distorted Document Images, הוא אוסף של למעלה מ-6658 עמודים של מסמכים עם מספר דפוסים גיאומטריים ועיוותים. בנוסף, ל-DDI-100 יש יותר מ-99870 תמונות, מסכות חותמות, מסכות טקסט ותיבות תוחמות.

  8. RoadText-1K

    אחד ממערכי הנתונים הגדולים ביותר שעוזרים לאמן מודלים לזהות טקסט בסרטוני וידאו, RoadText-1K מכיל 1000 קטעי וידאו עם הערת טקסט תוחמת ותעתיק של הטקסט בכל מסגרת וידאו.

  9. MSRA-TD500

    מכיל 300 אימונים ו-200 תמונות טקסט; ה-MSRA-TD500 מכיל תווים משפות סינית ואנגלית ומוסבר ברמת המשפט.

  10. ערכת נתונים של MJSynth

    מסופק על ידי אוניברסיטת אוקספורד, מערך הנתונים של מילים זה כולל כמעט 9 מיליון תמונות שנוצרו באופן סינתטי המכסים יותר מ-90 אלף מילים בשפה האנגלית.

  11. טקסט של Street View

    מערך הנתונים הזה, שנאסף מתמונות Google Street View, כולל תמונות זיהוי טקסט, בעיקר של לוחות ושלטים ברמת הרחוב.

  12. מאגר מסמכים

    מאגר המסמכים הוא אוסף של 941 מסמכים בכתב יד, כולל טבלאות, נוסחאות, שרטוטים, דיאגרמות, רשימות ועוד, מ-189 כותבים.

  13. ביטויי מתמטיקה

    ביטויי המתמטיקה הוא מסד נתונים המכיל 101 סמלים מתמטיים ו-10,000 ביטויים.

  14. Street View מספרי בית

    Street View House Numbers זה, שנאסף מ-Google Street View, הוא מסד נתונים המכיל 73257 ספרות של מספר בית ברחוב.

  15. סביבה טבעית OCR

    הסביבה הטבעית OCR, הוא מערך נתונים של כמעט 660 תמונות ברחבי העולם ו-5238 הערות טקסט.

אלה היו כמה ממערכי הנתונים המובילים בקוד פתוח להכשרת מודלים של ML עבור יישומי זיהוי טקסט. בחירת זה שמתאים לצרכי העסק והאפליקציה שלך עשויה לקחת זמן ומאמץ. עם זאת, עליך להתנסות עם מערכי נתונים אלה לפני שתחליט על המתאים.

כדי לעזור לך להתקדם לקראת אפליקציית זיהוי טקסט אמינה ויעילה היא שייפ - ספקית הפתרונות הטכנולוגיים הגבוהה ביותר. אנו ממנפים את החוויה הטכנולוגית שלנו ליצירת התאמה אישית, אופטימלית ו מערכי נתונים יעילים לאימון OCR לפרויקטים שונים של לקוחות. כדי להבין היטב את היכולות שלנו, צור איתנו קשר עוד היום.

שתף חברתי