מחקר מקרה: AI בשיחה

למעלה מ-3 שעות של נתונים שנאספו, מפולחים ומתועתקים לבניית ASR ב-8 שפות הודיות

שיחה ai
הממשלה שואפת לאפשר לאזרחיה גישה נוחה לאינטרנט ולשירותים דיגיטליים בשפת האם שלהם באמצעות פרויקט Bhashini.

BHASHINI, פלטפורמת התרגום לשפות מונעות בינה מלאכותית של הודו, היא חלק חיוני ביוזמת Digital India.

פלטפורמת Bhashini, שנועדה לספק כלים של בינה מלאכותית (AI) ועיבוד שפה טבעית (NLP) לחברות MSME, סטארט-אפים ולמחדשים עצמאיים, משמשת כמשאב ציבורי. מטרתו היא לקדם הכללה דיגיטלית על ידי מתן אפשרות לאזרחים הודים ליצור אינטראקציה עם היוזמות הדיגיטליות של המדינה בשפות האם שלהם.

בנוסף, היא שואפת להרחיב משמעותית את הזמינות של תוכן אינטרנט בשפות הודיות. הדבר מכוון במיוחד לתחומי עניין ציבוריים כגון ממשל ומדיניות, מדע וטכנולוגיה וכו'. כתוצאה מכך, הדבר יעודד אזרחים להשתמש באינטרנט בשפתם, ויקדם את השתתפותם הפעילה.

רתום את ה-NLP כדי לאפשר מערכת אקולוגית מגוונת של תורמים, ישויות שותפות ואזרחים במטרה להתעלות מעל מחסומי שפה, ובכך להבטיח הכלה והעצמה דיגיטלית

פיתרון של עולם אמיתי

שחרור כוחה של לוקליזציה עם נתונים

הודו הייתה זקוקה לפלטפורמה שתתרכז ביצירת מערכי נתונים רב לשוניים ופתרונות טכנולוגיות שפה מבוססי בינה מלאכותית על מנת לספק שירותים דיגיטליים בשפות הודיות. כדי להשיק יוזמה זו, המכון ההודי לטכנולוגיה, Madras (IIT Madras) שיתף פעולה עם Shaip כדי לאסוף, לפלח ולתמלל מערכי נתונים של שפות הודיות לבניית מודלים של דיבור רב לשוני.

אתגרים

כדי לסייע ללקוח עם מפת הדרכים של טכנולוגיית הדיבור שלו לשפות הודיות, הצוות היה צריך לרכוש, לפלח ולתמלל כמויות גדולות של נתוני אימון כדי לבנות מודל AI. הדרישות הקריטיות של הלקוח היו:

איסוף נתונים

  • רכשו 3000 שעות של נתוני אימון ב-8 שפות הודיות עם 4 ניבים לכל שפה.
  • עבור כל שפה, הספק יאסוף את Extempore Speech ו
    נאום שיחה מקבוצות גיל של 18-60 שנים
  • הבטח שילוב מגוון של דוברים לפי גיל, מגדר, השכלה ודיאלקטים
  • הבטח שילוב מגוון של סביבות הקלטה לפי מפרטים.
  • כל הקלטת אודיו תהיה לפחות 16kHz אך רצוי 44kHz

פילוח נתונים

  • צור קטעי דיבור של 15 שניות וחותמת את האודיו לאלפיות שניות עבור כל רמקול נתון, סוג צליל (דיבור, קשקוש, מוזיקה, רעש), פניות, אמירות וביטויים בשיחה
  • צור כל קטע עבור אות הקול הממוקד שלו עם ריפוד של 200-400 אלפיות השנייה בהתחלה ובסוף.
  • עבור כל הקטעים, יש למלא את האובייקטים הבאים, כלומר שעת התחלה, שעת סיום, מזהה פלח, רמת עוצמת קול, סוג צליל, קוד שפה, מזהה רמקול וכו'.

תמלול נתונים

  • עקוב אחר הנחיות תמלול פרטים לגבי תווים וסמלים מיוחדים, איות ודקדוק, שימוש באותיות רישיות, קיצורים, התכווצויות, אותיות בודדות מדוברות, מספרים, סימני פיסוק, ראשי תיבות, דיבור לא מובן, שפות שאינן מטרה, לא דיבור וכו'.

בדיקת איכות ומשוב

  • כל ההקלטות יעברו הערכת איכות ואימות, רק דיבור מאומת יימסר

פתרון

עם ההבנה העמוקה שלנו ב-AI בשיחות, עזרנו ללקוח לאסוף, לפלח ולתמלל את הנתונים עם צוות של אספנים מומחים, בלשנים ומערים כדי לבנות קורפוס גדול של מערכי נתונים אודיו ב-8 שפות הודיות

היקף העבודה של שייפ כלל, בין השאר, רכישת כמויות גדולות של נתוני אימון אודיו, פילוח הקלטות האודיו במספר רב, תעתוק הנתונים ואספקת קבצי JSON מתאימים המכילים את המטא-נתונים [SpeakerID, Age, Gender, Language, Dialect,
שפת אם, הסמכה, עיסוק, תחום, פורמט קובץ, תדר, ערוץ, סוג אודיו, מספר רמקולים, מספר שפות זרות, הגדרות בשימוש, אודיו צר או פס רחב וכו']. 

שייפ אספה 3000 שעות של נתוני אודיו בקנה מידה תוך שמירה על רמות איכות רצויות הנדרשות להכשרת טכנולוגיית דיבור לפרויקטים מורכבים. טופס הסכמה מפורשת נלקח מכל אחד מהמשתתפים.

1. איסוף נתונים