הַגדָרָה
דיבור לטקסט (STT) הוא תהליך של המרת שפה מדוברת לטקסט כתוב באופן אוטומטי באמצעות מודלים של בינה מלאכותית. הוא קשור קשר הדוק ל-ASR.
מטרה
המטרה היא להפוך תוכן מדוברי לנגיש וניתן לחיפוש. הוא נמצא בשימוש נרחב בתמלול, נגישות ועוזרים דיגיטליים.
חשיבות
- תומך בנגישות למשתמשים לקויי שמיעה.
- מספק תמלולים של פגישות והרצאות.
- הדיוק תלוי במבטאים ובתנאי רעש.
- משמש כמעט בכל היישומים המונעים על ידי קול.
איך זה עובד
- לכידת קלט אודיו.
- עיבוד מקדים ונרמול אות שמע.
- יש ליישם מודלים של ASR לזיהוי מילים.
- תמלול טקסט פלט.
- סקירה או תיקון תחת פיקוח אנושי במידת הצורך.
דוגמאות (העולם האמיתי)
- ממשק API של דיבור לטקסט של גוגל קלאוד.
- שירותי דיבור של Microsoft Azure.
- תמלול פגישות Otter.ai.
מקורות / קריאה נוספת
- זיהוי דיבור אוטומטי - NIST.
- ISO/IEC 15938-4: תיאור תוכן מולטימדיה.
- יוראפסקי ומרטין. עיבוד דיבור ושפה.
- מהי טכנולוגיית דיבור לטקסט וכיצד היא פועלת