מחקר מקרה: AI בשיחה

למעלה מ-3 שעות של נתונים שנאספו, מפולחים ומתועתקים לבניית ASR ב-8 שפות הודיות

אוסף אמירות
הממשלה שואפת לאפשר לאזרחיה גישה נוחה לאינטרנט ולשירותים דיגיטליים בשפת האם שלהם באמצעות פרויקט Bhashini.

BHASHINI, פלטפורמת התרגום לשפות מונעות בינה מלאכותית של הודו, היא חלק חיוני ביוזמת Digital India.

פלטפורמת Bhashini, שנועדה לספק כלים של בינה מלאכותית (AI) ועיבוד שפה טבעית (NLP) לחברות MSME, סטארט-אפים ולמחדשים עצמאיים, משמשת כמשאב ציבורי. מטרתו היא לקדם הכללה דיגיטלית על ידי מתן אפשרות לאזרחים הודים ליצור אינטראקציה עם היוזמות הדיגיטליות של המדינה בשפות האם שלהם.

בנוסף, היא שואפת להרחיב משמעותית את הזמינות של תוכן אינטרנט בשפות הודיות. הדבר מכוון במיוחד לתחומי עניין ציבוריים כגון ממשל ומדיניות, מדע וטכנולוגיה וכו'. כתוצאה מכך, הדבר יעודד אזרחים להשתמש באינטרנט בשפתם, ויקדם את השתתפותם הפעילה.

רתום את ה-NLP כדי לאפשר מערכת אקולוגית מגוונת של תורמים, ישויות שותפות ואזרחים במטרה להתעלות מעל מחסומי שפה, ובכך להבטיח הכלה והעצמה דיגיטלית

פיתרון של עולם אמיתי

שחרור כוחה של לוקליזציה עם נתונים

הודו הייתה זקוקה לפלטפורמה שתתרכז ביצירת מערכי נתונים רב לשוניים ופתרונות טכנולוגיות שפה מבוססי בינה מלאכותית על מנת לספק שירותים דיגיטליים בשפות הודיות. כדי להשיק יוזמה זו, המכון ההודי לטכנולוגיה, Madras (IIT Madras) שיתף פעולה עם Shaip כדי לאסוף, לפלח ולתמלל מערכי נתונים של שפות הודיות לבניית מודלים של דיבור רב לשוני.

אתגרים

כדי לסייע ללקוח עם מפת הדרכים של טכנולוגיית הדיבור שלו לשפות הודיות, הצוות היה צריך לרכוש, לפלח ולתמלל כמויות גדולות של נתוני אימון כדי לבנות מודל AI. הדרישות הקריטיות של הלקוח היו:

איסוף נתונים

  • רכשו 3000 שעות של נתוני אימון ב-8 שפות הודיות עם 4 ניבים לכל שפה.
  • עבור כל שפה, הספק יאסוף את Extempore Speech ו
    נאום שיחה מקבוצות גיל של 18-60 שנים
  • הבטח שילוב מגוון של דוברים לפי גיל, מגדר, השכלה ודיאלקטים
  • הבטח שילוב מגוון של סביבות הקלטה לפי מפרטים.
  • כל הקלטת אודיו תהיה לפחות 16kHz אך רצוי 44kHz

פילוח נתונים

  • צור קטעי דיבור של 15 שניות וחותמת את האודיו לאלפיות שניות עבור כל רמקול נתון, סוג צליל (דיבור, קשקוש, מוזיקה, רעש), פניות, אמירות וביטויים בשיחה
  • צור כל קטע עבור אות הקול הממוקד שלו עם ריפוד של 200-400 אלפיות השנייה בהתחלה ובסוף.
  • עבור כל הקטעים, יש למלא את האובייקטים הבאים, כלומר שעת התחלה, שעת סיום, מזהה פלח, רמת עוצמת קול, סוג צליל, קוד שפה, מזהה רמקול וכו'.

תמלול נתונים

  • עקוב אחר הנחיות תמלול פרטים לגבי תווים וסמלים מיוחדים, איות ודקדוק, שימוש באותיות רישיות, קיצורים, התכווצויות, אותיות בודדות מדוברות, מספרים, סימני פיסוק, ראשי תיבות, דיבור לא מובן, שפות שאינן מטרה, לא דיבור וכו'.

בדיקת איכות ומשוב

  • כל ההקלטות יעברו הערכת איכות ואימות, רק דיבור מאומת יימסר

פתרון

עם ההבנה העמוקה שלנו ב-AI בשיחות, עזרנו ללקוח לאסוף, לפלח ולתמלל את הנתונים עם צוות של אספנים מומחים, בלשנים ומערים כדי לבנות קורפוס גדול של מערכי נתונים אודיו ב-8 שפות הודיות

היקף העבודה של שייפ כלל, בין השאר, רכישת כמויות גדולות של נתוני אימון אודיו, פילוח הקלטות האודיו במספר רב, תעתוק הנתונים ואספקת קבצי JSON מתאימים המכילים את המטא-נתונים [SpeakerID, Age, Gender, Language, Dialect,
שפת אם, הסמכה, עיסוק, תחום, פורמט קובץ, תדר, ערוץ, סוג אודיו, מספר רמקולים, מספר שפות זרות, הגדרות בשימוש, אודיו צר או פס רחב וכו']. 

שייפ אספה 3000 שעות של נתוני אודיו בקנה מידה תוך שמירה על רמות איכות רצויות הנדרשות להכשרת טכנולוגיית דיבור לפרויקטים מורכבים. טופס הסכמה מפורשת נלקח מכל אחד מהמשתתפים.

1. איסוף נתונים

2. פילוח נתונים

  • נתוני האודיו שנאספו פוצלו עוד יותר לקטעי דיבור של 15 שניות כל אחד והוטבעו בחותמת זמן של אלפיות השנייה עבור כל רמקול נתון, סוג צליל, סיבובים, אמירות וביטויים בשיחה
  • יצר כל קטע עבור אות הקול הממוקד שלו עם ריפוד של 200-400 מילישניות בתחילת וסיומו של אות קול.
  • עבור כל הקטעים, האובייקטים הבאים היו נוכחים ומלאים, כלומר, שעת התחלה, שעת סיום, מזהה פלח, רמת עוצמת קול (רועש, רגיל, שקט), סוג צליל ראשי (דיבור, קשקוש, מוזיקה, רעש, חפיפה), רמקול קוד שפה תעודה מזהה, תמלול וכו'.

3. בדיקת איכות ומשוב

  • כל ההקלטות הוערכו לאיכות ורק הקלטות דיבור מאומתות עם WER של 90% ו-TER של 90% נמסרו
  • רשימת רשימת איכות לאחר מכן:
       » מקסימום 15 שניות של אורך מקטע
       » תמלול מתחומים ספציפיים, כלומר: מזג אוויר, סוגים שונים של חדשות, בריאות, חקלאות, חינוך, מקומות עבודה או פיננסים
       » רעש רקע נמוך
       » אין קליפ שמע כבוי - אין עיוות
       » תקן פילוח אודיו לתמלול

4. תמלול נתונים
כל המילים המדוברות, כולל היסוסים, מילות מילוי, התחלות שווא וטיקים מילוליים אחרים, נלכדו במדויק בתמלול. פעלנו גם לפי הנחיות לתמלול פרטים לגבי אותיות רישיות וקטנות, איות, אותיות רישיות, קיצורים, התכווצויות, מספרים,
סימני פיסוק, ראשי תיבות, דיבור לא שוטף, רעשים שאינם דיבור וכו'. יתרה מכך, זרימת העבודה שאחריה עבור איסוף ותמלול היא כדלקמן:

תוֹצָאָה

נתוני האודיו האיכותיים של בלשנים מומחים יאפשרו למכון הטכנולוגי ההודי - מדרס, לאמן ולבנות במדויק מודלים של זיהוי דיבור רב לשוני ב-8 שפות הודיות עם ניבים שונים בזמן שנקבע. ניתן להשתמש במודלים של זיהוי דיבור כדי:

  • התגבר על מחסום השפה להכללה דיגיטלית על ידי חיבור האזרחים ליוזמות בשפת האם שלהם.
  • מקדם ממשל דיגיטלי
  • זרז ליצירת מערכת אקולוגית לשירותים ומוצרים בשפות הודיות
  • יותר תוכן דיגיטלי מקומי בתחומי העניין הציבורי, במיוחד, ממשל ומדיניות
זהב-5 כוכבים

התרשמנו מהמומחיות של שייפ בחלל AI לשיחות. יכולת ביצוע הפרויקט הכוללת שלהם ממקור, פילוח, תמלול ואספקת נתוני ההכשרה הנדרשים מבלשנים מומחים ב-8 שפות תוך לוחות זמנים והנחיות מחמירים; תוך שמירה על סטנדרט האיכות המקובל".

האץ את ה- AI השיחתי שלך
פיתוח אפליקציות ב 100%

לקוחות מוצגים

העצמת צוותים לבנות מוצרי AI מובילים בעולם.