רישוי נתוני תמונות פנים ווידאו מוכנים לשימוש

מערכי נתונים מוכנים לזיהוי פנים לאימון מודלים של בינה מלאכותית

מינוף מערכי נתונים מגוונים מבחינה דמוגרפית המקורם באופן אתי כדי להאיץ את אימון מודלים של בינה מלאכותית ולהפחית הטיה עבור תאגיד טכנולוגיה עולמי מוביל.

מערכי נתונים מוכנים לזיהוי פנים

סקירת הפרויקט

הלקוח ביקש להאיץ פיתוח זיהוי פנים מונחה בינה מלאכותית מבלי לעבור מחזורי איסוף נתונים ארוכים ויקרים. כדי להשיג זאת, הם היו זקוקים מערכי נתונים מוכנים לשימוש שלא היו רק גדול ומגוון, אלא גם מקורו האתי ועומד בתקנות גלובליות לפרטיות נתונים.

שייפ סיפק מערכי נתונים מקיפים עם וריאציות מבוקרות בתאורה, תנוחות ראש, חסימות ורגשות, מה שאפשר למודלים של הלקוח להשיג דיוק והגינות תוך עמידה בקריטריונים אתניים ודמוגרפיים נדרשים. כל מערך נתונים כלל מטא-נתונים מפורטים, הערות תנוחות ותיבות גבול לזיהוי רגשות, מה שאפשר לאמן ולבחון מודלים בתרחישים מגוונים מאוד בעולם האמיתי.

מערכי נתונים מוכנים לזיהוי פנים

סטטיסטיקות מפתח

7,000+ נבדקים

במאגר נתונים היסטורי עם יותר מ-300,000 תמונות ו-2,000 סרטונים.

10,000+ נבדקים

במערך הנתונים של רגשות רב-זוויות.

תמונות 74,880

בתאורה
מערך נתוני וריאציות.

תמונות 18,600

מכסה שש
רגשות ליבה.

היקף הפרויקט

הלקוח נדרש מערכי נתונים של תמונות פנים ווידאו בקנה מידה גדול, ממקורות אתיים ומגוונים מבחינה דמוגרפית כדי לתמוך בפיתוח והכשרה של מודלים לזיהוי פנים. מערכי נתונים אלה היו חיוניים להפעלת מקרי שימוש ב מערכות נגד זיופים, אימות זהות, התאמת תמונות וניתוח ביטויים, מה שמבטיח ביצועי בינה מלאכותית חזקים ובלתי מוטים ביישומים בעולם האמיתי.

היקף ההתקשרות כלל:

  • מספק מערכי נתונים שנבחרו נועד לענות על מקרי שימוש של זיהוי פנים כמו מניעת זיופים, אימות זהות וזיהוי הבעות פנים.
  • מתן תמונות וסרטונים עם הערות מפורטות עבור נתונים דמוגרפיים, תנוחת ראש, חסימות, סוג תאורה ורגשות.
  • הבטחה כיסוי דמוגרפי מאוזן כדי להפחית הטיה מערכתית בהכשרה.
  • ערבות ציות והסכמה עם סטנדרטים גלובליים של הגנת נתונים ופרטיות.

תרומות לדוגמה למערך נתונים:

  • מערך נתונים היסטורי (כ-7,000 נבדקים): מעל 300,000 תמונות ו-2,000 סרטונים עם וריאציות של תנוחה וסגירה.
  • מערך נתונים של רגשות רב-זוויות (כ-10,000 נבדקים): 15-20 תמונות לכל נבדק, מגוון זוויות ומצבים רגשיים שונים.
  • מערך נתונים של שישה רגשות (כ-3,100 נבדקים): 18,600 תמונות עם הערות המכסות ביטויים אנושיים מרכזיים.
  • מערך נתונים של וריאציות תאורה (כ-468 נבדקים): 74,880 תמונות בתשעה תנאי תאורה.

אתגרים

הפרויקט התייחס לאתגרים מרכזיים הנפוצים בבניית מודלים חזקים של בינה מלאכותית:

הטיה במודלים של AI

מניעת ייצוג יתר של קבוצות אתניות או מגדרים ספציפיים כדי להבטיח הוגנות.

שונות בעולם האמיתי

לכידת תנאי תאורה, זוויות פנים, חסימות והבעות טבעיות.

קנה מידה ואיכות

אספקת מאות אלפי תמונות ברזולוציה גבוהה מבלי להתפשר על גיוון.

התאמה לתקנות

עמידה בדרישות גלובליות מחמירות של פרטיות והגנה על נתונים בהסכמה מלאה של המשתתפים.

פתרון

שייפ יישם גישה מובנית כדי להבטיח את איכות ורלוונטיות של מערך הנתונים:

  • מערכי נתונים מאוזנים שנבחרו עם ייצוג רחב של קבוצות אתניות, מגדריות וגיל.
  • נתפס תנוחות מרובות זוויות ווריאציות תאורה כדי לשכפל תנאים מהעולם האמיתי.
  • נוסף הערות מפורטות (למשל, תנוחת ראש, חסימות, רגשות) כדי להעשיר את שמישות מערך הנתונים.
  • הוקמה קפדנית תהליכי עבודה של בקרת איכות ותאימות כדי להבטיח מקורות אתיים והקפדה על כללי הפרטיות.

תיק עבודות של מערכי נתונים

מערך נתונים תכולה דמוגרפיה / גיוון סטנדרטים / מפרט טכני
מערך נתונים היסטורי של תמונות פנים ווידאו (כ-7,000 נבדקים) 7,000 תמונות הרשמה; מעל 300,000 תמונות היסטוריות; 2,000 סרטונים (סרטון אחד בתוך הבית + סרטון אחד בחוץ לכל 1,000 נבדקים) מוצא אתני: שחור (35%), מזרח אסייתי (42%), דרום אסייתי (13%), לבן (10%); מין: 50% גברים / 50% נשים; גיל: מבוגרים 18+ (10 השנים האחרונות) משך הסרטון: 1-2 דקות; וריאציה של תנוחת הראש (P1-P7); 5 סוגי חסימה (O0-O4)
מערך נתונים של תמונות פנים (כ-5,000 נבדקים) 35 תמונות לכל נושא; 2,500 הודים; 1,000 אסייתים; 1,500 שחורים גיל: 18–60 שנים; חלוקה מגדרית מאוזנת ללא ייפוי; רקע וביגוד מגוונים; רזולוציה מינימלית: 960×1280
מערך נתונים של רגשות רב-זוויות (כ-10,000 נבדקים - סיניים) 15–20 תמונות לכל נושא; תנוחות: קדמי, שמאל, ימין (30°–60°); הבעות: חיוך, פה פתוח, עצוב, רציני, ניטרלי מוצא אתני: סיני; גיל: 18–26; מין: חלוקה 50/50 רזולוציה: 2160×3840 פיקסלים ומעלה
שישה מערכי נתונים של רגשות אנושיים (כ-3,100 נבדקים) 6 תמונות לכל נושא (הבעות שונות); 18,600 תמונות בסך הכל מוצאים אתניים: יפנים (9,000), קוריאנים (2,400), סינים (2,400), דרום מזרח אסייתים (2,400), דרום אסייתים (2,400); גיל: 20–65 שנים הערות תיבה תוחמת לרגשות; רקעים חלקים; ללא כובעים, משקפיים או מכשולים
מערך נתונים של וריאציות תאורה (כ-468 נבדקים הודים) 160 תמונות לכל נושא; סה"כ: 74,880 תמונות גיל: 20–70; 70% גברים 9 תנאי תאורה (פנים, חוץ, תאורת צד, תאורת רקע, ניאון וכו')
מערך נתונים של תמונות פנים רב-אתניות (כ-600 נבדקים) 3,752 תמונות בסך הכל מוצא אתני: אפריקאי, מזרח תיכוני, אינדיאני, דרום אסייתי, דרום מזרח אסייתי; גיל: 20-70 שנים -

תוֹצָאָה

שיתוף הפעולה הניב השפעה עסקית וטכנית משמעותית:

  • דיוק דגם משופרדיוק משופרים וזיכרון עבור מודלים של זיהוי פנים במגוון מקרי שימוש.
  • הפחתת הטיהייצוג דמוגרפי מאוזן הפחית את ההטיה המערכתית בתפוקות הבינה המלאכותית.
  • לוחות זמנים לפיתוח מואץמערכי נתונים מוכנים לשימוש אפשרו בנייה מהירה של אבות טיפוס ואימון מודלים ללא איסוף נתונים ממושך.
  • התאמה לתקנותכל מערכי הנתונים עמדו בתקני פרטיות גלובליים וכללו את הסכמת המשתתפים.

מערכי הנתונים המגוונים, המקורם באופן אתי, של שייפ סיפקו לנו את המהירות, האיכות והתאימות לתקנות שהיינו צריכים. בעזרת נתונים מוכנים לשימוש, האיץנו את אימון מודלי הבינה המלאכותית והפחיתנו משמעותית את ההטיה המערכתית.

5 כוכבים זהובים