המפתח להתגברות על מכשולים בפיתוח AI

נתונים אמינים יותר

מבוא
המפתח להתגברות על מכשולי AI?
האתגר של איכות נתונים לא עקבית
ניווט בדרישות תאימות מורכבות
התגברות על מכשולי פיתוח AI
בוא נדבר

מבוא

האינטליגנציה המלאכותית החלה לתפוס דמיונות כאשר איש הפח מ"הקוסם מארץ עוץ "הגיע למסך הכסף בשנת 1939, ומאז הוא זכה לדריסת רגל איתנה יותר בזייטגייסט. עם זאת, ביישום, מוצרי AI עברו מחזורי סדירה קבועים שביסו עד כה את האימוץ המשפיע ביותר.

במהלך התנופה, מהנדסים וחוקרים עשו צעדים אדירים, אך כאשר שאיפותיהם בהכרח עולות על יכולות המחשוב הקיימות באותה תקופה, תקופה של תרדמה באה בעקבותיה. למרבה המזל, הגידול האקספוננציאלי בכוח המחשוב עליו ניבא חוק מור בשנת 1965 הוכיח ברובו את הדיוק, ומשמעותה של עלייה זו קשה להפריז.

קרא את הספר האלקטרוני: המפתח להתגברות על מכשולי פיתוח AI, או הורד גרסת PDF של הספר האלקטרוני.

תוכן העניינים

מבוא

המפתח להתגברות על מכשולי AI?

האתגר של איכות נתונים לא עקבית

ניווט בדרישות תאימות מורכבות

התגברות על מכשולי פיתוח AI

בוא נדבר

המפתח להתגברות על מכשולי פיתוח AI: נתונים אמינים יותר

כיום, לאדם הממוצע יש בכוחו מיליוני פעמים יותר כוח מחשוב מכפי שנאס"א נאלצה לשלוף את נחיתת הירח בשנת 1969. אותו מכשיר בכל מקום המדגים בנוחות שפע של כוח מחשוב ממלא גם תנאי נוסף לתור הזהב של ה- AI: שפע של נתונים. על פי תובנות של קבוצת המחקר העומס על מידע, 90% מהנתונים בעולם נוצרו בשנתיים האחרונות. כעת, לאחר שהצמיחה האקספוננציאלית בכוח המחשוב התכנסה סופית עם צמיחה מטאורית באותה מידה בייצור הנתונים, חידושי נתוני הבינה המלאכותית מתפוצצים כל כך עד שחלק מהמומחים חושבים שתזניק מהפכה תעשייתית רביעית.

מנתוני האיגוד הלאומי להון סיכון עולה כי תחום הבינה המלאכותית ראה השקעה של 6.9 מיליארד דולר ברבעון הראשון של 2020. לא קשה לראות את הפוטנציאל הטמון בכלי AI כיוון שכבר מנופים סביבנו. חלק ממקרי השימוש הגלויים יותר למוצרי AI הם מנועי ההמלצה שמאחורי היישומים המועדפים עלינו כמו Spotify ו- Netflix. למרות שכיף לגלות אמן חדש להאזנה או תוכנית טלוויזיה חדשה לצפייה מוגזמת, יישומים אלה הם די נמוכים. ציוני מבחני ציון של אלגוריתמים אחרים - הקובעים בחלקם היכן סטודנטים מתקבלים למכללה - ועוד אחרים מסננים קורות חיים של מועמדים, ומחליטים אילו מועמדים מקבלים עבודה מסוימת. לחלק מכלי ה- AI יכולות להיות השלכות של חיים או מוות, כמו מודל ה- AI המסקר סרטן שד (שעולה על הרופאים).

למרות צמיחה מתמדת בשתי הדוגמאות בעולם האמיתי של פיתוח AI ומספר הסטארטאפים המתמודדים על יצירת הדור הבא של כלי טרנספורמציה, נותרו אתגרים לפיתוח ויישום יעילים. בפרט, פלט AI הוא מדויק ככל שהקלט מאפשר, מה שאומר שאיכות חשובה ביותר.

האתגר של איכות נתונים לא עקבית בפתרונות AI

אכן יש כמות מדהימה של נתונים שנוצרת מדי יום: 2.5 קווינטיליון בתים, על פי Social Media Today. אבל זה לא אומר שהכל ראוי להכשיר את האלגוריתם שלך. חלק מהנתונים אינם שלמים, חלקם באיכות נמוכה, וחלקם פשוט לא מדויקים, כך ששימוש במידע הפגום הזה יביא לאותן תכונות מתוך החדשנות שלך (היקרה) לנתוני AI. על פי מחקר של גרטנר, כ -85% מפרויקטים של AI שנוצרו בשנת 2022 יניבו תוצאות לא מדויקות בגלל נתונים מוטים או לא מדויקים. אמנם תוכלו לדלג בקלות על המלצת שיר שאינה הולמת את טעמכם, אך אלגוריתמים לא מדויקים אחרים כרוכים בעלות כספית ומוניטין משמעותית.

בשנת 2018, אמזון החלה להשתמש בכלי גיוס המופעל על ידי AI, בייצור מאז 2014, שהיה מוטה חזק ולא ניתן לטעות כלפי נשים. מתברר כי דגמי המחשבים העומדים בבסיס הכלי הוכשרו באמצעות קורות חיים שהוגשו לחברה במשך עשור. מכיוון שרוב המועמדים הטכנולוגיים היו גברים (ועדיין, אולי בגלל הטכנולוגיה הזו), האלגוריתם החליט להעניש קורות חיים כאשר "נשים" כלולות בכל מקום - קפטן כדורגל נשים או קבוצת עסקים לנשים, למשל. היא אף החליטה להעניש את המועמדים לשתי מכללות נשים. אמזון טוענת כי הכלי מעולם לא שימש כקריטריון היחיד להערכת מועמדים פוטנציאליים, ובכל זאת המגייסים בדקו את מנוע ההמלצות כשחיפשו עובדים חדשים.

כלי הגיוס של אמזון נגזר בסופו של דבר לאחר שנים של עבודה, אך השיעור מתמשך והדגיש את החשיבות של איכות הנתונים בעת הכשרת אלגוריתמים וכלי AI. איך נראים נתונים "איכותיים"? בקיצור, זה בודק את חמש התיבות האלה:

1. רלוונטי

כדי להיחשב איכותיים, הנתונים חייבים להביא משהו בעל ערך לתהליך קבלת ההחלטות. האם יש קשר בין מעמדו של מועמד לעבודה כקופץ מוטות אלוף המדינה לבין ביצועיהם בעבודה? זה אפשרי, אבל זה נראה מאוד לא סביר. על ידי ניכוי נתונים שאינם רלוונטיים, אלגוריתם יכול להתמקד במיון המידע שמשפיע בפועל על התוצאות.

2. מדויק

הנתונים האלה שאתה משתמש בהם חייבים לייצג במדויק את הרעיונות שאתה בודק. אם לא, זה לא שווה את זה. לדוגמא, אמזון הכשירה את אלגוריתם הגיוס שלה תוך שימוש ב -10 שנות קורות חיים של מועמדים, אך לא ברור אם החברה אישרה תחילה את המידע שנמסר על קורות החיים הללו. מחקר של חברת Checkster מדגים כי 78% מהמועמדים משקרים או ישקלו לשקר בבקשה לעבודה. אם אלגוריתם מקבל החלטות המלצה באמצעות GPA של מועמד, למשל, מומלץ לאשר תחילה את האותנטיות של המספרים הללו. תהליך זה ייקח זמן וכסף, אך הוא ישפר ללא ספק את דיוק התוצאות שלך.

3. מאורגן כראוי והערות

במקרה של מודל שכירות המבוסס על קורות חיים, ביאור קל יחסית. במובן מסוים, רזומה מגיע עם הערות מראש, אם כי אין ספק שיהיו חריגים. רוב המועמדים מפרטים את ניסיון העבודה שלהם בכותרת "ניסיון" ומיומנויות רלוונטיות תחת "מיומנויות". עם זאת, במצבים אחרים, כמו בדיקת סרטן, הנתונים יהיו מגוונים הרבה יותר. מידע עשוי להגיע בצורה של הדמיה רפואית, תוצאות בדיקה גופנית, או אפילו שיחה בין הרופא למטופל על היסטוריית בריאות המשפחה ומופעי סרטן, בין שאר הנתונים. על מנת שמידע זה יתרום לאלגוריתם איתור מדויק, יש לארגן אותו בקפידה ולהביא הערות על מנת להבטיח שמודל ה- AI ילמד לבצע חיזויים מדויקים על סמך ההסקות הנכונות.

4. עדכני

אמזון ניסתה ליצור כלי שיחסוך זמן וכסף על ידי שכפול אותן החלטות גיוס שבני אדם מקבלים בהרבה פחות זמן. על מנת להפוך את ההמלצות למדוייקות ככל האפשר, הנתונים יצטרכו להתעדכן. אם חברה הפגינה פעם העדפה למועמדים עם יכולת תיקון מכונות כתיבה, למשל, שכירות שכירות היסטוריות אלה ככל הנראה לא היו בעלות השפעה רבה על כשירותם של מועמדים לעבודה כיום לתפקיד כלשהו. כתוצאה מכך, זה יהיה חכם להסיר אותם.

5. מגוונים כראוי

מהנדסי אמזון בחרו להכשיר אלגוריתם עם מאגר מועמדים שהיה גבר מכריע. החלטה זו הייתה טעות קריטית והיא נעשתה לא פחות מחמירה מכך שאלה היו קורות החיים שהיו בידי החברה באותה עת. מהנדסי אמזון היו יכולים לשתף פעולה עם ארגונים מוערכים עם דומים תפקידים זמינים שקיבלו יותר מועמדות לעבודה כדי לפצות על המחסור, או שהיה יכול להיות צמצם באופן מלאכותי את מספר קורות החיים של גברים כך שיתאים למספר הנשים והכשרו הדריך את האלגוריתם עם ייצוג מדויק יותר של האוכלוסייה. העניין הוא שהנתונים גיוון הוא המפתח, אלא אם כן נעשה מאמץ מתואם לחסל את ההטיה בתשומות, תפוקות מוטות יעשו זאת לנצח.

ברור כי נתונים איכותיים אינם מופיעים משום מקום. במקום זאת, יש לאצור אותו בקפידה תוך התייחסות לתוצאות המיועדות. בתחום הבינה המלאכותית נהוג לומר כי "זבל בפירושו זבל בחוץ." הצהרה זו נכונה, אך היא ממעטת את חשיבות האיכות. AI יכול לעבד כמויות מדהימות של מידע ולהפוך אותו לכל דבר, החל ממבחר המניות ועד המלצות שכירה וכלה באבחונים רפואיים. יכולת זו עולה בהרבה על יכולתם של בני האדם, מה שאומר שהיא מגדילה את התוצאות. מגייס אנושי מוטה אחד יכול היה להתעלם רק מכל כך הרבה נשים, אך מגייס AI מוטה יכול להתעלם מכולן. מהבחינה הזו, אשפה פנימה לא רק אומרת זבל בחוץ - זה אומר שכמות קטנה של נתוני "אשפה" יכולה להפוך למזבלה שלמה.

ניווט בדרישות תאימות מורכבות

כאילו מציאת נתוני איכות לא הייתה קשה דיה, חלק מהתעשיות העומדות להרוויח הכי הרבה מחידושי נתוני AI הן גם המפוקחות ביותר. שירותי בריאות הם אולי הדוגמה הטובה ביותר, ולמרות שסקר של HIT Infrastructure מצא כי 91% מהגורמים בתעשייה חושבים שהטכנולוגיה יכולה לשפר את הגישה לטיפול, אופטימיות זו מתמתנת מכך ש 75% רואים בכך איום על ביטחון המטופל ופרטיותו. וחולים אינם היחידים בסיכון.

התקנות הגורפות שנחקקו באמצעות חוק ניידות ואחריות אחריות בביטוח בריאות מצטלבות כעת במכשולים שונים של תאימות נתונים מקומית, כגון התקנה הכללית באירופה להגנת נתונים, חוק פרטיות הצרכן בקליפורניה בארצות הברית וחוק הגנת המידע האישי בסינגפור. לתקנות מקומיות אלה יצטרפו רבים אחרים, וככל שמתברר כי בריאות הבריאות היא מקור משמעותי יותר לנתוני בריאות, סביר להניח שהתקנות יזכו לאחיזה הדוקה עוד יותר בנתוני המטופלים במעבר. כתוצאה מכך, פלטפורמת הענן המאובטחת והתואמת של שייפ תתגלה כאמצעי יקר עוד יותר לצבור ולגשת לנתוני שירותי בריאות להכשרת מוצרי AI.

מידע המאפשר זיהוי אישי יכול להוות איום משמעותי להתפתחות ה- AI שלך, אך אפילו יישום תואם לחלוטין נמצא בסיכון אם הוא לא יכול לספק סוג של תוצאות מדויקות שמגיעות רק עם נתוני אימון מגוונים. מחקר שנערך בשנת 2020 בכתב העת של איגוד הרפואה האמריקני הראה כי אלגוריתמים של למידת מכונה בתחום הרפואי מאומנים לרוב עם נתונים של חולים בקליפורניה, ניו יורק ומסצ'וסטס. בהתחשב בכך שחולים אלה מייצגים פחות מחמישית מאוכלוסיית ארה"ב, שלא לומר דבר משאר העולם, קשה לדמיין כיצד מודלים אלה יכולים לייצר תוצאות מלבד מוטות.

בהכרה בקושי לאבטח מידע תואם ומגוון מבחינה גיאוגרפית, מציע שיאפ נתוני בריאות מורשים ממגוון רחב של אזורים שתוכננו במיוחד במטרה לבנות אלגוריתמים מדויקים. נתונים אלה מגיעים בצורה של טקסט, כגון רשומות רפואיות או מידע על תביעות, הדמיה אבחנתית רפואית כמו סריקות CT, שמע כגון הערות מדוברות של רופאים או שיחות בין רופאים למטופלים, ואפילו וידאו מתוצאות MRI. זה גם מזוהה לחלוטין ואנונימי, ומגן על הארגון שלך מפני ההשלכות האתיות והפיננסיות שיכולות להיות בעקבות הפרה של כל אחת מהמספר ההולך וגדל של התקנות השולטות בנתונים ממוצא מקומי ובינלאומי כאחד.

התגברות על מכשולי פיתוח AI

מאמצי פיתוח AI כוללים מכשולים משמעותיים ולא משנה באיזו תעשייה הם מתרחשים, ותהליך המעבר מרעיון בר-ביצוע למוצר מצליח כרוך בקושי. בין האתגרים ברכישת הנתונים הנכונים לבין הצורך באנונימיזם כדי לעמוד בכל התקנות הרלוונטיות, זה יכול להרגיש כאילו בנייה והכשרה של אלגוריתם היא החלק הקל ביותר.

כדי להעניק לארגון שלך את כל היתרון הדרוש במאמץ לעצב פיתוח חדשני ופורץ דרך של AI, תרצה לשקול לשתף פעולה עם חברה כמו שייפ. צ'טן פאריק ווטסל גאיה הקימו את שאיפ בכדי לסייע לחברות להנדס סוגים של פתרונות שיכולים להפוך את שירותי הבריאות בארה"ב. לאחר למעלה מ- 16 שנות עסק, החברה שלנו גדלה לכלול יותר מ- 600 חברי צוות, ועבדנו עם מאות לקוחות להפוך רעיונות משכנעים לפתרונות AI.

כאשר אנשינו, התהליכים והפלטפורמה שלנו עובדים עבור הארגון שלכם, תוכלו לפתוח מיד את ארבעת היתרונות הבאים ולהזניק את הפרויקט שלכם לסיום מוצלח:

1. היכולת לשחרר את מדעני הנתונים שלך

אין מנוס מכך שתהליך הפיתוח של AI דורש השקעה ניכרת של זמן, אך אתה תמיד יכול לייעל את הפונקציות שהצוות שלך משקיע הכי הרבה זמן בביצוע. שכרת את מדעני הנתונים שלך מכיוון שהם מומחים בפיתוח אלגוריתמים מתקדמים ומודלים של למידת מכונה, אך המחקר מוכיח בעקביות כי עובדים אלה למעשה משקיעים 80% מזמנם באיתור, ניקיון וארגון הנתונים שיפעילו את הפרויקט. יותר משלושה רבעים (76%) ממדעני הנתונים מדווחים כי תהליכי איסוף הנתונים השגרתיים הללו הם במקרה גם החלקים הפחות אהובים עליהם בעבודה, אך הצורך בנתונים איכותיים משאיר רק 20% מזמנם לפיתוח בפועל, כלומר העבודה המעניינת והמעוררת ביותר מבחינה אינטלקטואלית עבור מדעני נתונים רבים. על ידי אספקה של נתונים באמצעות ספק צד שלישי כגון Shaip, חברה יכולה לתת למהנדסי הנתונים היקרים והמוכשרים שלה להוציא את עבודתם כמנהלי נתונים ולהוציא את זמנם בחלקים של פתרונות AI בהם הם יכולים לייצר את הערך הרב ביותר.

2. היכולת להשיג תוצאות טובות יותר

מנהיגי פיתוח AI רבים מחליטים להשתמש בנתוני קוד פתוח או בקהל כדי להפחית את ההוצאות, אך החלטה זו כמעט תמיד תעלה יותר לטווח הארוך. סוגים אלה של נתונים זמינים, אך הם אינם יכולים להתאים לאיכות ערכות הנתונים המאוחסנות בקפידה. במיוחד נתונים של מקורות המוני מציגים שגיאות, מחדלים ואי דיוקים, ולמרות שבעיתים ניתן לסדר נושאים אלה במהלך תהליך הפיתוח בעיניהם הפקוחות של המהנדסים שלך, נדרשות איטרציות נוספות שלא היו נחוצות אם היית מתחיל עם גבוה יותר. -נתוני איכות מההתחלה.

הסתמכות על נתוני קוד פתוח היא קיצור דרך נפוץ נוסף שמגיע עם מערכת מלכודות משלה. חוסר בידול הוא אחד הנושאים הגדולים ביותר, מכיוון שאלגוריתם המאומן באמצעות נתוני קוד פתוח משוכפל ביתר קלות מזה שמבוסס על מערכי נתונים מורשים. בדרך זו אתה מזמין תחרות של משתתפים אחרים במרחב שיכולים לערער את המחירים שלך ולקחת נתח שוק בכל עת. כשאתה מסתמך על שייפ, אתה ניגש לנתונים האיכותיים ביותר שמורכבים על ידי כוח עבודה מנוהל ומיומן, ואנחנו יכולים להעניק לך רישיון בלעדי עבור מערך נתונים מותאם אישית שמונע מהמתחרים ליצור מחדש את הקניין הרוחני שזכתה לה קשה.

3. גישה לאנשי מקצוע מנוסים

גם אם הסגל הביתי שלך כולל מהנדסים מיומנים ומדעני נתונים מוכשרים, כלי ה- AI שלך יכולים להפיק תועלת מהחוכמה שמגיעה רק דרך ניסיון. מומחי הנושא שלנו עמדו בראש יישומי AI רבים בתחומם ולמדו לקחים יקרי ערך בדרך, ומטרתם היחידה היא לעזור לך להשיג את שלך.

כאשר מומחי תחום מזהים, מארגנים, מסווגים ומתייגים נתונים עבורך, אתה יודע שהמידע המשמש להכשרת האלגוריתם שלך יכול להפיק את התוצאות הטובות ביותר האפשריות. אנו מבצעים גם אבטחת איכות קבועה על מנת לוודא כי נתונים עומדים בסטנדרטים הגבוהים ביותר ויבצעו כמתוכנן לא רק במעבדה, אלא גם במצב אמיתי.

4. ציר זמן מואץ לפיתוח

פיתוח AI אינו קורה בן לילה, אך הוא יכול לקרות מהר יותר כאשר אתה שותף עם שייפ. איסוף נתונים והערות פנים יוצר צוואר בקבוק תפעולי משמעותי המחזיק את המשך תהליך הפיתוח. העבודה עם Shaip מעניקה לך גישה מיידית לספרייה העצומה של נתונים מוכנים לשימוש, והמומחים שלנו יוכלו למצוא כל סוג של תשומות נוספות שאתה זקוק להן בעזרת הידע העמוק שלנו בתעשייה והרשת הגלובלית שלנו. ללא נטל המקור וההערות, הצוות שלך יכול להתחיל לעבוד בפיתוח בפועל באופן מיידי, ומודל ההדרכה שלנו יכול לעזור בזיהוי אי דיוקים מוקדמים כדי להפחית את האיטרציות הדרושות לעמידה ביעדי הדיוק.

אם אינך מוכן להעביר את כל ההיבטים של ניהול הנתונים שלך למיקור חוץ, Shaip מציעה גם פלטפורמה מבוססת ענן המסייעת לצוותים לייצר, לשנות ולהביא הערות לסוגים שונים של נתונים בצורה יעילה יותר, כולל תמיכה בתמונות, וידאו, טקסט ואודיו. . ShaipCloud כולל מגוון כלי אימות וזרימת עבודה אינטואיטיביים, כגון פתרון פטנט למעקב וניטור עומסי עבודה, כלי תמלול לתמלול הקלטות שמע מורכבות וקשות ורכיב בקרת איכות כדי להבטיח איכות ללא פשרות. החשוב מכל, הוא ניתן להרחבה, כך שהוא יכול לגדול ככל שהדרישות השונות של הפרויקט גדלות.

עידן החדשנות המלאכותית רק מתחיל, ונראה התקדמות וחידושים מדהימים בשנים הקרובות שיש בהם כדי לעצב מחדש תעשיות שלמות או אפילו לשנות את החברה כולה. ב- Shaip אנו רוצים להשתמש במומחיות שלנו כדי לשמש ככוח טרנספורמטיבי, המסייע לחברות המהפכניות ביותר בעולם לרתום את כוחן של פתרונות AI להשגת יעדים שאפתניים.

יש לנו ניסיון עמוק ביישומי בריאות ובאינטרנט שיחה, אך יש לנו גם את הכישורים הדרושים להכשרת מודלים כמעט לכל סוג של יישום. למידע נוסף על האופן שבו שייפ יכול לעזור להעביר את הפרויקט שלך מרעיון ליישום, עיין במשאבים הרבים הזמינים באתר האינטרנט שלנו או פנה אלינו עוד היום.

צור קשר

שם פרטי*
שם משפחה*
כתובת אימייל*
טלפון*
חברה*
מדינה*
מדינה
תגובות*
בהרשמה אני מסכים עם שייפ מדיניות הפרטיות ו תנאי שימוש באתר ולספק את הסכמתי לקבל תקשורת שיווקית B2B משאיפ.
CAPTCHA

המפתח להתגברות על מכשולים בפיתוח AI

מבוא

קרא את הספר האלקטרוני: המפתח להתגברות על מכשולי פיתוח AI, או הורד גרסת PDF של הספר האלקטרוני.

תוכן העניינים

המפתח להתגברות על מכשולי פיתוח AI: נתונים אמינים יותר

האתגר של איכות נתונים לא עקבית בפתרונות AI

1. רלוונטי

2. מדויק

3. מאורגן כראוי והערות

4. עדכני

5. מגוונים כראוי

ניווט בדרישות תאימות מורכבות

התגברות על מכשולי פיתוח AI

1. היכולת לשחרר את מדעני הנתונים שלך

2. היכולת להשיג תוצאות טובות יותר

3. גישה לאנשי מקצוע מנוסים

4. ציר זמן מואץ לפיתוח

צור קשר

שירותי נתונים AI

התמחות

התעשייה

מוצרים

חברה

משאבים

צור קשר