נתוני אימון AI

מלחמות נתונים 2024: המאבקים האתיים והמעשיים של אימון בינה מלאכותית

אם ביקשת מדגם Gen AI לכתוב מילים לשיר כמו שהביטלס היו עושים ואם הוא יעשה עבודה מרשימה, יש לזה סיבה. לחלופין, אם ביקשת מדוגמנית לכתוב פרוזה בסגנון הסופר האהוב עליך והיא שיכפלה את הסגנון במדויק, יש לכך סיבה.

אפילו בפשטות, אתה נמצא במדינה אחרת וכאשר אתה רוצה לתרגם את שמו של חטיף מעניין שאתה מוצא במעבר סופרמרקט, הטלפון החכם שלך מזהה תוויות ומתרגם את הטקסט בצורה חלקה.

בינה מלאכותית עומדת בנקודת המשען של כל האפשרויות הללו וזה בעיקר בגלל שדגמי בינה מלאכותית היו מאומנים על כמויות עצומות של נתונים כאלה - במקרה שלנו, מאות שירים של הביטלס וכנראה ספרים מהסופר האהוב עליך.

עם עליית הבינה המלאכותית הגנרטיבית, כולם מוזיקאים, סופרים, אומנים או הכל. מודלים מהדור הבינה המלאכותית מייצרים יצירות אמנות מותאמות תוך שניות, בהתאם להנחיות המשתמש. הם יכולים ליצור ואן גוך-איסק יצירות אמנות ואפילו שאל פאצ'ינו יקרא את תנאי השירות מבלי שהוא יהיה שם.

מלבד קסם, ההיבט החשוב כאן הוא האתיקה. האם זה הוגן שעבודות יצירתיות כאלה שימשו להכשרת דגמי AI, שמנסים בהדרגה להחליף אמנים? האם נרכשה הסכמה מבעלי נכסים רוחניים כאלה? האם הם קיבלו פיצוי הוגן?

ברוכים הבאים לשנת 2024: שנת מלחמות הנתונים

במהלך השנים האחרונות, הנתונים הפכו עוד יותר לאבן שואבת למשוך את תשומת הלב של חברות לאמן את דגמי ה-Gen AI שלהן. כמו תינוק, דגמי AI הם נאיביים. יש ללמד אותם ואז לאמן אותם. זו הסיבה שחברות זקוקות למיליארדי, אם לא מיליוני, של נתונים כדי לאמן באופן מלאכותי מודלים לחקות בני אדם.

לדוגמה, GPT-3 אומן על מיליארדי (מאות מהם) של אסימונים, מה שמתורגם באופן רופף למילים. עם זאת, מקורות מגלים שטריליוני אסימונים כאלה שימשו לאימון הדגמים העדכניים יותר.

עם נפחים אדירים כל כך של מערכי הדרכה הנדרשים, לאן הולכות חברות טכנולוגיה גדולות?

מחסור חריף בנתוני הכשרה

שאפתנות ונפח הולכים יד ביד. ככל שארגונים מגדילים את המודלים שלהם ומייעלים אותם, הם דורשים אפילו יותר נתוני הדרכה. זה יכול לנבוע מדרישות לחשוף דגמים מצליחים של GPT או פשוט לספק תוצאות משופרות ומדויקות.

ללא קשר למקרה, דרישת נתוני אימון בשפע היא בלתי נמנעת.

זה המקום שבו ארגונים מתמודדים עם המחסום הראשון שלהם. במילים פשוטות, האינטרנט הופך קטן מדי עבור דגמי AI להתאמן עליהם. כלומר, שלחברות נגמרות מערכי הנתונים הקיימים כדי להזין ולהכשיר את המודלים שלהן.

המשאב המדלדל הזה מפחיד את בעלי העניין וחובבי הטכנולוגיה מכיוון שהוא עלול להגביל את הפיתוח וההתפתחות של דגמי בינה מלאכותית, אשר קשורים בעיקר לאופן שבו מותגים ממקמים את המוצרים שלהם וכיצד נתפסים בעיות מטרידות בעולם כטיפול מונע בינה מלאכותית. פתרונות.

יחד עם זאת, יש גם תקווה בצורה של נתונים סינתטיים או הכלאה דיגיטלית כפי שאנו מכנים זאת. במונחים של הדיוטות, נתונים סינתטיים הם נתוני האימון שנוצרו על ידי AI, המשמשים שוב לאימון מודלים.

למרות שזה נשמע מבטיח, מומחי טכנולוגיה מאמינים שהסינתזה של נתוני אימון כאלה תוביל למה שנקרא Habsburg AI. זהו דאגה מרכזית לארגונים, שכן מערכי נתונים משולבים כאלה עלולים להיות בעלי שגיאות עובדתיות, הטיה או סתם קשקוש, ולהשפיע לרעה על התוצאות ממודלים של AI.

חשבו על זה כמשחק של לחישה סינית אבל הטוויסט היחיד הוא שהמילה הראשונה שמועברת עלולה להיות גם חסרת משמעות.

המירוץ לאיסוף נתוני אימון בינה מלאכותית

מקורות נתוני הדרכה בתחום הבינה המלאכותית רישוי הוא דרך אידיאלית למקור נתוני אימון. למרות עוצמה, ספריות ומאגרים הם מקורות סופיים. כלומר, הם לא יכולים להספיק את דרישות הנפח של דגמים בקנה מידה גדול. נתון מעניין אומר שאולי ייגמר לנו הנתונים האיכותיים להכשרת דגמים עד שנת 2026, תוך שקלול זמינות הנתונים בהשוואה למשאבים פיזיים אחרים בעולם האמיתי.

אחד ממאגרי התמונות הגדולים ביותר - Shutterstock יש 300 מיליון תמונות. אמנם זה מספיק כדי להתחיל באימון, אבל בדיקה, אימות ואופטימיזציה יצטרכו שוב נתונים בשפע.

עם זאת, ישנם מקורות נוספים זמינים. המלכוד היחיד כאן הוא שהם מקודדים בצבע באפור. אנחנו מדברים על הנתונים הזמינים לציבור מהאינטרנט. הנה כמה עובדות מסקרנות:

  • למעלה מ-7.5 מיליון פוסטים בבלוג מועברים בשידור חי כל יום
  • יש יותר מ-5.4 מיליארד אנשים בפלטפורמות מדיה חברתית כמו אינסטגרם, X, Snapchat, TikTok ועוד.
  • למעלה מ-1.8 מיליארד אתרים קיימים באינטרנט.
  • למעלה מ-3.7 מיליון סרטונים מועלים ביוטיוב בלבד בכל יום.

חוץ מזה, אנשים משתפים בפומבי טקסטים, סרטונים, תמונות ואפילו מומחיות בנושא באמצעות פודקאסטים האודיו בלבד.

אלו הם קטעי תוכן זמינים במפורש.

אז השימוש בהם כדי להכשיר דגמי AI חייב להיות הוגן, נכון?

זהו האזור האפור שהזכרנו קודם. אין דעה נחרצת לשאלה זו מכיוון שחברות טכנולוגיה בעלות גישה לכמויות כה גדולות של נתונים מגיעות עם כלים ותיקוני מדיניות חדשים כדי לספק את הצורך הזה.

כלים מסוימים הופכים אודיו מסרטוני YouTube לטקסט ואז משתמשים בהם כאסימונים למטרות הדרכה. ארגונים בוחנים מחדש את מדיניות הפרטיות ואף הולכים להיקף של שימוש בנתונים ציבוריים כדי להכשיר מודלים מתוך כוונה ידועה מראש להתמודד עם תביעות משפטיות.

מנגנוני נגד

במקביל, חברות מפתחות גם מה שנקרא נתונים סינתטיים, שבו מודלים של AI מייצרים טקסטים שניתן להשתמש בהם שוב כדי לאמן את המודלים כמו לולאה.

מצד שני, כדי להתמודד עם גריטת נתונים ולמנוע מארגונים לנצל פרצות משפטיות, אתרי אינטרנט מיישמים תוספים וקודים כדי להפחית את הרובוטים של הרחקת נתונים.

מהו הפתרון האולטימטיבי?

ההשלכה של בינה מלאכותית בפתרון בעיות בעולם האמיתי נתמכה תמיד בכוונות נעלות. אז מדוע יצירת מערכי נתונים להכשרת מודלים כאלה צריכה להסתמך על מודלים אפורים?

ככל שהשיחות והוויכוחים על בינה מלאכותית אחראית, אתית ואחראית זוכות בולטות וחוזק, חברות בכל קנה מידה עוברות למקורות חלופיים שיש להם טכניקות כובע לבן כדי לספק נתוני אימון.

זה איפה שייפ מצטיין ב. מתוך הבנה של החששות הרווחים סביב מיקור נתונים, שייפ תמיד דגל בטכניקות אתיות ותרגל באופן עקבי שיטות מעודנות ומוטבות לאיסוף ולאסוף נתונים ממקורות מגוונים.

מתודולוגיות המקור של מערכי נתונים של White Hat

מתודולוגיות לאיסוף מערכי נתונים של Hat כלי איסוף הנתונים הקנייני שלנו מעמיד בני אדם במרכז מחזורי זיהוי ואספקת הנתונים. אנו מבינים את הרגישות של מקרי שימוש עליהם עובדים לקוחותינו ואת ההשפעה שתהיה למערכי הנתונים שלנו על תוצאות המודלים שלהם. לדוגמה, למערכי נתונים של שירותי בריאות יש את הרגישות שלהם בהשוואה למערכי נתונים לראייה ממוחשבת עבור מכוניות אוטונומיות.

זו בדיוק הסיבה ששיטת הפעולה שלנו כוללת בדיקות איכות וטכניקות מדוקדקות לזיהוי והרכבת מערכי נתונים רלוונטיים. זה אפשר לנו להעצים חברות עם מערכי אימון בלעדיים של Gen AI בפורמטים מרובים כגון תמונות, סרטונים, אודיו, טקסט ועוד דרישות נישה.

הפילוסופיה שלנו

אנו פועלים לפי פילוסופיות ליבה כגון הסכמה, פרטיות והגינות באיסוף מערכי נתונים. הגישה שלנו גם מבטיחה גיוון בנתונים כך שאין הקדמה של הטיה לא מודעת.

בעוד תחום הבינה המלאכותית מתכוננת לקראת שחר של עידן חדש המסומן על ידי שיטות הוגנת, אנו ב-Shaip מתכוונים להיות נושאי הדגל והמבשרים של אידיאולוגיות כאלה. אם מערכי נתונים הוגנים ואיכותיים ללא ספק הם מה שאתה מחפש כדי להכשיר את דגמי הבינה המלאכותית שלך, צור איתנו קשר עוד היום.

שתף חברתי