AI שיחה: זיהוי דיבור אוטומטי

למעלה מ-8k שעות שמע נאספו, 800 שעות מתומללות לטכנולוגיית קול רב לשונית

שיחה ai

מבוא

הודו הייתה זקוקה לפלטפורמה שמתרכזת ביצירת מערכי נתונים רב לשוניים ופתרונות טכנולוגיות שפה מבוססי בינה מלאכותית על מנת לספק שירותים דיגיטליים בשפות הודיות. כדי להשיק יוזמה זו, הלקוח שיתף פעולה עם Shaip כדי לאסוף ולתמלל שפה הודית כדי לבנות מודלים של דיבור רב לשוני.

תכולה

שעות של איסוף נתונים
10
מספר דפים עם הערות
10 +
משך הפרויקט
< 1 חודשים

אתגרים

כדי לסייע ללקוח עם מפת הדרכים של טכנולוגיית הדיבור שלו לשפות הודיות, הצוות היה צריך לרכוש, לפלח ולתמלל כמויות גדולות של נתוני אימון כדי לבנות מודל AI. הדרישות הקריטיות של הלקוח היו:

איסוף נתונים

  • רכשו 8000 שעות של נתוני אימון ממקומות מרוחקים בהודו
  • הספק לאסוף דיבור ספונטני מקבוצות גיל של 20-70 שנה
  • להבטיח תמהיל מגוון של דוברים לפי גיל, מגדר, השכלה ודיאלקטים
  • כל הקלטת אודיו תהיה לפחות 16kHz עם 16 סיביות/דגימה.
איסוף נתונים

תמלול נתונים

עקוב אחר הנחיות לתמלול פרטים סביב תווים וסמלים מיוחדים, איות ודקדוק, שימוש באותיות רישיות, קיצורים, התכווצויות, אותיות בודדות מדוברות, מספרים, סימני פיסוק, ראשי תיבות וראשי תיבות, דיבור סתמי, דיבור לא מובן, שפות לא-מטרות, לא-דיבור

תמלול נתונים

בדיקת איכות ומשוב

כל ההקלטות יעברו הערכת איכות ואימות, רק הקלטות דיבור מאומתות יימסרו

פתרון

עם ההבנה העמוקה שלנו ב-AI בשיחות, עזרנו ללקוח לאסוף, לתמלל את נתוני האודיו עם צוות של אספנים מומחים, בלשנים ומערים כדי לבנות קורפוס גדול של נתוני אודיו מחלקים מרוחקים של הודו.

היקף העבודה של שייפ כלל, בין היתר, רכישת כמויות גדולות של נתוני אימון אודיו, תעתוק הנתונים ואספקת קבצי JSON תואמים המכילים את המטא-נתונים [גם לרמקולים וגם למעתיקים. עבור כל דובר, המטא-נתונים כוללים מזהה דובר אנונימי, פרטי מכשיר, מידע דמוגרפי כמו מגדר, גיל והשכלה, יחד עם קוד PIN, מצב סוציו-אקונומי, שפות מדוברות ותיעוד של משך השהות בחייו. עבור כל מתמלל, הנתונים משלבים מזהה מתמלל אנונימי, פרטים דמוגרפיים דומים לאלו של הדוברים, משך חווית התמלול שלהם ופירוט יסודי של שפות שהם יכולים לקרוא, לכתוב ולדבר.

שייפ אסף 8000 שעות של נתוני אודיו / דיבור ספונטני בקנה מידה ותמלול 800 שעות תוך שמירה על רמות איכות רצויות הנדרשות להכשרת טכנולוגיית דיבור לפרויקטים מורכבים. טופס הסכמה מפורשת נלקח מכל אחד מהמשתתפים. הנאום / הספונטני שנאסף התבסס על תמונות שסופקו על ידי האוניברסיטה. שֶׁל 3500 תמונות 1000 הם גנריים ו 2500 מתייחסים לתרבות ספציפית למחוז, לפסטיבלים וכו'. תמונות מתארות תחומים שונים כמו תחנות רכבת, שווקים, מזג אוויר ועוד.

איסוף נתונים

מדינהמחוזותשעות אודיותַעֲתוּק
(שעות)
ביהארסראן, מזרח צ'מפרן, גופלגאנג', סיטמארהי, סמאסטיפור, דרבהנגה, מדפורה, בהגלפור, גאיה, קישאנג', ואישלי, לחיסאראי, סהרה, סופול, ארריה, בגוסראי, ג'הנאבאד, פורניה, מוזאפרפור, ג'אמוי2000200
אוטרפרדשDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
רג'סטאןנגאור, צ'ורו20020
אוטראקהאנדTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
מערב בנגלPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, ג'מטרה20020
APGuntur, Chitoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
טלנגאנהקארימנגאר, נלגונדה20020
גואהצפון+דרום גואה10010
קרנטקהדקשין קנאדה, גולברגה, דרוואד, בלארי, מייסור, שימוגה, ביז'פור, בלגאום, רייצ'ור, צ'מראג'נאגר1000100
מהרשטרהSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
סה"כ8000800

הנחיות כלליות

פוּרמָט

    • אודיו בתדר 16 קילו-הרץ, 16 סיביות/דגימה.
    • ערוץ יחיד.
    • אודיו גולמי ללא המרת קידוד.

סִגְנוֹן

    • דיבור ספונטני.
    • משפטים המבוססים על תמונות שסופקו על ידי האוניברסיטה. מתוך 3500 תמונות, 1000 הן גנריות ו-2500 קשורות לתרבות ספציפית למחוזות, פסטיבלים וכו'. תמונות מתארות תחומים שונים כמו תחנות רכבת, שווקים, מזג אוויר ועוד.

רקע הקלטה

    • מוקלט בסביבה שקטה ונטולת הדים.
    • אין הפרעות בסמארטפון (רעידות או התראות) במהלך ההקלטה.
    • אין עיוותים כמו גזירה או השפעות של שדה רחוק.
    • רעידות מהטלפון לא מקובלות; רעידות חיצוניות נסבלות אם השמע צלול.

מפרט הרמקול

    • טווח גילאים בין 20-70 שנים עם חלוקה מגדרית מאוזנת למחוז.
    • מינימום 400 דוברי שפת אם בכל מחוז.
    • על הדוברים להשתמש בשפת הבית/דיאלקט שלהם.
    • טפסי הסכמה חובה לכל המשתתפים.


בדיקת איכות והבטחת איכות קריטית

תהליך ה-QA נותן עדיפות לאבטחת איכות עבור הקלטות ותמלול אודיו. תקני אודיו מתמקדים בשתיקות מדויקות, משך קטע, בהירות דובר יחיד ומטא נתונים מפורטים כולל גיל ומצב סוציו-אקונומי. קריטריונים לתמלול מדגישים את דיוק התגים, אמיתות המילה ופרטי הפלחים הנכונים. רף הקבלה מכתיב שאם יותר מ-20% מאצוות אודיו נכשל בסטנדרטים האלה, הוא נדחה. עבור פחות מ-20% אי התאמות, נדרשות הקלטות חלופיות עם פרופילים דומים.

תמלול נתונים

הנחיות התמלול מדגישות דיוק ותמלול מילולי רק כאשר המילים ברורות ומובנות; מילים לא ברורות מסומנות כ[לא מובנות] או [לא נשמעות] על סמך הבעיה. גבולות המשפט באודיו ארוך מסומנים ב , ואין לעשות פרפראזה או תיקון של שגיאות דקדוקיות. תעתיק מילולי מכסה שגיאות, סלנגים וחזרות אך משמיט התחלות שווא, צלילי מילוי וגמגומים. רעשי רקע וקדמה מתומללים עם תגיות תיאוריות, בעוד ששמות, כותרות ומספרים מתאימים לכללי תמלול ספציפיים. תוויות רמקולים משמשות לכל משפט, ומשפטים לא שלמים מסומנים עם.

זרימת עבודה של פרויקט

זרימת העבודה מתארת ​​את תהליך תמלול השמע. זה מתחיל בהצטרפות למשתתפים והדרכה. הם מקליטים אודיו באמצעות אפליקציה, שמועלית לפלטפורמת QA. אודיו זה עובר בדיקות איכות ופילוח אוטומטי. לאחר מכן, הצוות הטכנולוגי מכין קטעים לתמלול. לאחר תמלול ידני, יש שלב אבטחת איכות. התמלולים נמסרים ללקוח, ואם יתקבלו, המשלוח נחשב כמושלם. אם לא, תיקונים נעשים על סמך משוב הלקוח.

תוֹצָאָה

נתוני השמע האיכותיים של בלשנים מומחים יאפשרו ללקוח שלנו לאמן ולבנות במדויק מודלים של זיהוי דיבור רב לשוני בשפות הודיות שונות עם ניבים שונים בזמן שנקבע. ניתן להשתמש במודלים של זיהוי דיבור כדי:

  • התגבר על מחסום השפה להכללה דיגיטלית על ידי חיבור האזרחים ליוזמות בשפת האם שלהם.
  • מקדם ממשל דיגיטלי
  • זרז ליצירת מערכת אקולוגית לשירותים ומוצרים בשפות הודיות
  • יותר תוכן דיגיטלי מקומי בתחומי העניין הציבורי, במיוחד, ממשל ומדיניות

אנו מתפעלים מהמומחיות של שייפ בתחום ה-AI השיחתי. המשימה של טיפול ב-8000 שעות של נתוני אודיו יחד עם 800 שעות של תמלול ב-80 מחוזות מגוונים הייתה מונומנטלית, בלשון המעטה. ההבנה העמוקה של שייפ בפרטים והניואנסים המורכבים של התחום הזה היא שאיפשרה ביצוע מוצלח של פרויקט כל כך מאתגר. היכולת שלהם לנהל ולנווט בצורה חלקה את המורכבות של כמות הנתונים העצומה הזו תוך הבטחת איכות מהשורה הראשונה היא באמת ראויה לשבח.

זהב-5 כוכבים

האץ את ה- AI השיחתי שלך
פיתוח אפליקציות ב 100%