הַגדָרָה
זיהוי טקסט מתייחס לזיהוי תווי טקסט בתמונות או במסמכים סרוקים. זה כולל זיהוי מודפס וכתב יד.
מטרה
המטרה היא להפוך טקסט בפורמטים חזותיים לנגיש וניתן לחיפוש.
חשיבות
- מאפשר דיגיטציה של ארכיונים.
- קריטי לנגישות ואוטומציה.
- הדיוק תלוי באיכות התמונה.
- קשור לטכנולוגיות OCR.
איך זה עובד
- לכידת מסמכים סרוקים או מצולמים.
- עיבוד מקדים של תמונות לשיפור הבהירות.
- זיהוי אזורי טקסט.
- יישום מודלים של זיהוי.
- פלט טקסט קריא על ידי מכונה.
דוגמאות (העולם האמיתי)
- גוגל עדשה: מזהה טקסט בתמונות.
- ABBYY FineReader: הופך מסמכים סרוקים לדיגיטציה.
- Tesseract OCR: מנוע זיהוי טקסט בקוד פתוח.
מקורות / קריאה נוספת
- סמית', ר. "סקירה כללית של מנוע ה-OCR של Tesseract." ICDAR.
- תקן ISO/IEC 15938-4.
- עסקאות IEEE על ניתוח תבניות ובינת מכונה.