זיהוי דיבור אוטומטי

הבנת תהליך איסוף נתוני אודיו לזיהוי דיבור אוטומטי

מערכות זיהוי דיבור אוטומטי ועוזרים וירטואליים כגון Siri, Alexa ו-Cortana הפכו לחלקים נפוצים בחיינו. התלות שלנו בהם גוברת משמעותית ככל שהם נעשים חכמים יותר. מהדלקת האורות שלנו לביצוע שיחות ועד החלפת ערוצי טלוויזיה, אנו ממנפים את הטכנולוגיות החכמות הללו כדי להשלים משימות שגרתיות.

עם זאת, האם אי פעם תהיתם כיצד פועלות מערכות זיהוי דיבור אלו?

ובכן, הבלוג הזה ילמד אותך על כמה מהיסודות של זיהוי דיבור אוטומטי. כמו כן, נחקור את פעולתו וכיצד בנויים עוזרים וירטואליים פונקציונליים כמו Siri.

מהו זיהוי דיבור אוטומטי?

זיהוי דיבור אוטומטי (ASR) היא תוכנה המאפשרת למערכת המחשב להמיר דיבור אנושי לטקסט, תוך מינוף אלגוריתמים מרובים של בינה מלאכותית ולמידת מכונה.

לאחר המרה וניתוח של הפקודה הנתונה, המחשב מגיב בפלט מתאים למשתמש. ASR הוצגה לראשונה בשנת 1962, ומאז היא משפרת ללא הרף את הפעילות שלה ומקבלת אור זרקור עצום בגלל יישומים פופולריים כמו Alexa ו-Siri.

האם ידעת שזיהוי דיבור אוטומטי ידוע גם כקורא דיבור לטקסט? קרא עוד על זה בבלוג הזה! 

מהו התהליך לאיסוף דיבור לאימון דגמי ASR?

תהליך איסוף דיבור

איסוף דיבור נועד לאסוף מספר הקלטות לדוגמה ממספר אזורים המשמשים להזנה והדרכה של דגמי ASR. מערכת ASR מספקת את היעילות הגבוהה ביותר כאשר מערכי נתונים גדולים של דיבור ואודיו נאספים ומסופקים למערכת שלה.

כדי לעבוד בצורה חלקה, מערכי הנתונים של הדיבור שנאספו חייבים להכיל את כל הנתונים הדמוגרפיים של היעד, השפות, המבטאים והדיאלקטים. התהליך הבא מציג כיצד לאמן את מודל למידת המכונה במספר שלבים:

  • התחל בבניית מטריצה ​​דמוגרפית

    אוספת בראש ובראשונה את הנתונים עבור נתונים דמוגרפיים שונים כמו המיקום, המינים, השפה, הגילאים והמבטאים. כמו כן, הקפידו ללכוד מגוון רחב של רעשי סביבה כמו רעשי רחוב, רעשי חדר המתנה, רעשי משרד ציבורי וכו'.

  • אסוף ותמלל את נתוני הדיבור

    השלב הבא הוא איסוף דגימות אודיו ודיבור אנושיים המבוססים על מיקומים גיאוגרפיים שונים כדי לאמן את מודל ה-ASR שלך. זהו שלב חשוב ודורש ממומחים אנושיים לבצע אמירות ארוכות וקצרות של מילים כדי לקבל את התחושה האמיתית של המשפט ולחזור על אותם משפטים במבטאים ובדיאלקטים שונים.

  • צור ערכת בדיקות נפרדת

    לאחר שאספתם את הטקסט המתומלל, השלב הבא הוא להצמיד אותו לנתוני אודיו מתאימים. לאחר מכן, פלח את הנתונים עוד יותר וכלול משפט אחד מהם. כעת, מתוך צמדי הנתונים המפולחים, אתה יכול למשוך נתונים אקראיים מקבוצה לבדיקה נוספת.

  • אמן את מודל השפה של ASR שלך

    ככל שיש יותר מידע למערכי הנתונים שלך, כך המודל המאומן שלך בבינה מלאכותית יקבל ביצועים טובים יותר. לכן, צור וריאציות מרובות של טקסט ונאומים שהקלטת קודם לכן. פרפראזה על אותם משפטים באמצעות סימוני דיבור שונים.

  • העריכו את הפלט ולבסוף, חזרו

    לבסוף, מודד את הפלט של מודל ה-ASR שלך כדי לתקן את הביצועים שלו. בדוק את המודל מול מערך בדיקות כדי לקבוע את יעילותו. באופן מתאים, הפעל את מודל ה-ASR שלך בלולאת משוב כדי ליצור את הפלט הרצוי ולתקן פערים.

[קרא גם: סקירה מקיפה של זיהוי דיבור אוטומטי]

מהם מקרי השימוש השונים של זיהוי דיבור?

טכנולוגיית זיהוי דיבור נפוצה כיום בתעשיות רבות. כמה תעשיות המשתמשות בטכנולוגיה אדירה זו הן כדלקמן:

  • תעשיית המזון תעשיית המזון: ענקיות מזון כמו וונדי'ס ומקדונלד'ס אמורות לשפר את חוויות הלקוחות שלהן באמצעות ASR. ברבים מהחנויות שלהם, הם פרסו דגמי ASR פונקציונליים במלואם כדי לקבל הזמנות, ולהעביר אותם עוד יותר למדור הבישול כדי להכין את הזמנת הלקוח.

     

  • טלקום טֵלֵקוֹמוּנִיקַציָה: Vodafone היא אחת מספקיות הטלקום הגדולות בעולם. היא עיצבה את שירותי הטיפול בלקוחות וממסרים טלפוניים שלה תוך שימוש במודלים של ASR המנחים אותך לפתור שאילתות שונות ולנתב מחדש את השיחות שלך למחלקות מודאגות.

     

  • נסיעות ותחבורה נסיעות ותחבורה: Google Android Auto או Apple CarPlay הפכו נפוצים. רוב האנשים משתמשים בהם כדי להפעיל מערכות ניווט, לשלוח הודעות או להחליף רשימות השמעה של מוזיקה. עם זאת, עם ההתקדמות הטכנולוגית, מערכות כאלה נעשות מעודנות יותר.
    BMW Intelligent Personal Assistant שהושק בסדרה 3 שלה היא הרבה יותר חכמה מעוזרות קוליות רגילות. זה יכול לאפשר לנהגים למצוא מידע הקשור לרכב ולהפעיל את המכונית באמצעות פקודות קוליות.
  • מדיה ובידורמדיה ובידור: גם תעשיית המדיה משתמשת ב-ASR ברבים מהפרויקטים שלה. Youtube השיקה עוזר מבוסס בינה מלאכותית שמייצר כתוביות אוטומטיות חיות. בזמן שאתה מדבר על המסך, העוזר יספק את הכתוביות כדי להפוך את הסרטון לנגיש לקבוצה גדולה יותר של משתמשי YouTube.

 

[קרא גם: מהי טכנולוגיית דיבור לטקסט וכיצד היא פועלת]

איך שייפ יכול לעזור?

שייפ הוא אחד משירותי ההדרכה בבינה מלאכותית המובילים, המחזיק במומחיות במספר תחומים של AI ו-ML. הם יכולים לעזור לך בבניית מערך נתונים משלך שיכול לשמש עבור יישומים ופרויקטים שונים.

חלק מהשירותים שמספקת שייפ הם:

  • זיהוי דיבור אוטומטי (ASR)
  • אוסף נאומים בתסריט
  • שחזור
  • אוסף דיבור ספונטני
  • אוסף אמירות/ מילות השכמה,
  • טקסט לדיבור (TTS)

אתה יכול להיעזר בשירותים אלה כדי לקבל את התוצאות הטובות ביותר עבור הפרויקטים מבוססי הבינה המלאכותית שלך. קבל מידע נוסף על שירותים אלה על ידי פנייה לצוות המומחים שלנו עוד היום!

שתף חברתי