במדינה מגוונת תרבותית ועשירה מבחינה לשונית כמו הודו, בניית בינה מלאכותית כוללת מתחילה באיסוף מערכי נתונים מייצגים ואיכותיים. זה החזון מאחורי פרויקט ועני— יוזמה בקנה מידה גדול, קוד פתוח בראשות ARTPARK, IISc בנגלורו, ו Google, במטרה לתת קול לכל שפה ודיאלקט הודי.
המטרה השאפתנית? לאסוף 150,000+ שעות דיבור ו 15,000+ שעות של תמלול החל מ- מיליון אנשי 1 לרוחב 773 מחוזות של הודו.
כאחד הספקים המרכזיים למשימה הלאומית הזו, שייפ שיחק תפקיד מרכזי באצירת נתוני דיבור ספונטניים, תמלול ואיסוף מטא נתונים - הנחת היסוד לטכנולוגיות קול שוויוניות המייצגות באמת את הודו האמיתית.
החזון מאחורי פרויקט ועני
Project Vaani נועד לגשר על פער ההכללה של AI על ידי יצירת מערך הנתונים הרב-מודאלי, הרב-לשוני, הגדול ביותר בקוד פתוח בהודו. נתונים אלה הם הבסיס לפיתוח זיהוי דיבור מדויק, תרגום ומערכות בינה מלאכותית מחוללות בשפות הודיות מקומיות - שרבות מהן מיוצגות בחסר במערכות אקולוגיות טכנולוגיות גלובליות.
החזון לטווח ארוך הוא להפעיל יישומים משפיעים ב:
- בריאות – טלרפואה מבוססת קול
- חינוך – פלטפורמות למידה עממיות
- ממשל – ממשקי שיחה לשירותי אזרח
- נגישות - כלים קוליים למשתמשים בעלי יכולת שונה
- תגובה לאסונות – תקשורת בזמן אמת בניבים מקומיים
תפקידו של שייפ בפרויקט ועני
שייפ הופקד על גביית 8,000 שעות של דיבור ספונטני ו 800 שעות של תמלילים מאומתים ידנית. האחריות שלנו התפרסה על שימוש ברמקולים, לכידת אודיו, תיוג מטא נתונים, תיאום תמלול ובקרת איכות.
שעות 8,000 של נתוני אודיו ספונטניים
הקלטות מ 400+ דוברי אם בכל מחוז, מייצגים קבוצות גיל, מגדרים ודיאלקטים מגוונים
80 מחוזות, מכוסה
הנחיה מבוססת תמונה כדי להבטיח דיבור טבעי, הקשרי
הנה מה שמייחד את הגישה שלנו:
גיוון ברמת המחוז
רכשנו הקלטות מ-80 מחוזות הפרוסים על פני מדינות כמו ביהאר, אוטר פראדש, קרנטקה, מערב בנגל ומהרשטרה. כל מחוז תרם 100 שעות של נתוני אודיו, והבטיח איזון אזורי. עסקנו בדוברי שפת אם, והבטחנו ייצוג של מבטאים ודיאלקטים אזוריים שלעתים קרובות מתעלמים מהם במערכים של AI מיינסטרים.
ייצוג לשוני ודמוגרפי
רכשנו הקלטות מ-80 מחוזות הפרוסים על פני מדינות כמו ביהאר, אוטר פראדש, קרנטקה, מערב בנגל ומהרשטרה. כל מחוז תרם 100 שעות של נתוני אודיו, והבטיח איזון אזורי. עסקנו בדוברי שפת אם, והבטחנו ייצוג של מבטאים ודיאלקטים אזוריים שלעתים קרובות מתעלמים מהם במערכים של AI מיינסטרים.
דיבור מבוסס תמונה
כדי לעורר אוצר מילים ספונטני וטבעי, הוצגו למשתתפים 45-90 תמונות בכל מפגש והתבקשו לתאר אותן. המשתתפים התבקשו להשתמש בתמונות מגוונות - החל מסמלים תרבותיים וכלה בחפצים יומיומיים - כדי לעורר תגובות טבעיות וספונטניות בשפת האם שלהם. זה הבטיח שההקלטות שיקפו דיבור קונטקסטואלי בעולם האמיתי - חיוני לאימון מערכות NLP מתקדמות.
תקני תמלול באיכות גבוהה
רק 10% מנתוני הדיבור הועתקו - בהיקף של 800 שעות. התמלולים בוצעו על ידי בלשנים מקומיים ברדיוס של 20-50 ק"מ מהדובר, מה שמבטיח היכרות עם ניבים וניואנסים. בדיקה בשכבה השנייה הבטיחה <5% שיעור שגיאות מילים (WER).
אבטחת איכות קפדנית
נתוני אודיו היו צריכים לעמוד ברף גבוה: ללא רעשי רקע, הדים, רעידות טלפון או עיוותים. השמע הוקלט בסביבות שקטות וללא הד. קבצים עברו בדיקה קפדנית כדי לעמוד בהנחיות לבהירות דיבור, רמות רעש, דיוק מטא נתונים ואימות דובר. תיוג מטא נתונים היה צריך להיות מדויק בכל הקבצים, וכל ההקלטות נבדקו עבור יישור רמקול ומיקום.
אתגרים שפתרנו
- לוגיסטיקה מרחוק - ניהול צוותים על פני 80 מחוזות
- גיוון ברמקולים - שילוב של 32,000+ רמקולים מאומתים במקומות מרוחקים
- רגישות תרבותית – כיבוד המנהגים והדיאלקטים המקומיים
- שלמות הנתונים - עמידה בתקני איכות ותאימות
- בקרת איכות - על פני הקשרים לשוניים ותרבותיים מרובים
ההצלחה שלנו הסתכמה בתכנון קפדני, אימות מונע טכנולוגיה ושותפויות עם צוותים מקומיים שהבינו את הניואנסים התרבותיים של כל אזור.
השפעה ויישומים
תרומתו של שייפ לא רק האיצה את התקדמות פרויקט Vaani, אלא גם הציבה את הבסיס לבינה מלאכותית כוללנית בהודו. מערך הנתונים הנאצר כבר נמצא בשימוש כדי לבנות ולכוונן מודלים של AI עבור:
- עוזרי קול עממיים
- מנועי תרגום אזוריים
- כלי תקשורת נגישים ללקויי ראייה
- פלטפורמות edtech מונעות בינה מלאכותית לסטודנטים כפריים
- טלרפואה כפרית
- שירותי אזרחים מבוססי קול
- תרגום ותמלול בזמן אמת
סיכום
פרויקט Vaani הוא צעד נועז לקראת בינה מלאכותית ונגישה - ושייפ מתכבד למלא תפקיד בסיסי. עבודתו של שייפ על פרויקט Vaani מאשרת מחדש את המחויבות שלנו לבניית מערכות בינה מלאכותיות אתיות ומכילות המושרשות בגיוון ובייצוג. עם למעלה מ-8,000 שעות של דיבור שנאספו ו-800 שעות שתומללו, אנו גאים לקחת חלק באחד מפרויקטי ההכללה הדיגיטלית בעלי החזון ביותר של הודו.
בעוד Project Vaani ממשיך לעבר היעד הגדול יותר שלו של 150,000+ שעות של נתונים, אנו מוכנים לתמוך בחזית הבאה של חדשנות בינה מלאכותית שמדברת אל – ולמען – כל הודי.
רוצה לשתף איתנו פעולה כדי לבנות בינה מלאכותית שמבינה את העולם האמיתי? www.shaip.com