הערת נתונים - NER

הערה על זיהוי ישויות (NER) בשם NLP קליני

הערת נר

נתוני טקסט קליני עם הערות טובות ו-Gold Standard כדי להכשיר/לפתח NLP קליני לבניית הגרסה הבאה של Healthcare API

החשיבות של עיבוד שפה טבעית קלינית (NLP) הוכרה יותר ויותר במהלך השנים האחרונות והובילה להתקדמות טרנספורמטיבית. NLP קליני מאפשר למחשבים להבין את המשמעות העשירה שעומדת מאחורי ניתוח כתוב של רופא של מטופל. ל-NLP קליני יכולים להיות מקרי שימוש מרובים, החל מניתוח בריאות האוכלוסייה ועד שיפור בתיעוד הקליני לזיהוי דיבור ועד התאמת ניסויים קליניים וכו'.

כדי לפתח ולהכשיר כל מודל NLP קליני, אתה דורש מערכי נתונים מדויקים, לא משוחדים ומנוסחים היטב בהיקפים עצומים. תקן זהב ונתונים מגוונים עוזרים בשיפור הדיוק והזכירה של מנועי NLP.

תכולה

מספר מסמכים מצוירים
10
מספר דפים עם הערות
10 +
משך הפרויקט
< 1 חודשים

אתגרים

הלקוח ציפה להכשיר ולפתח את פלטפורמת עיבוד השפה הטבעית (NLP) שלו עם סוגי ישויות חדשים וגם לזהות את הקשר בין סוגים שונים. יתרה מכך, הם העריכו ספקים שהציעו דיוק גבוה, צייתו לחוקים המקומיים והיה להם את הידע הרפואי הנדרש להערות קבוצה גדולה של נתונים.

המשימה הייתה לתייג ולהערות עד 20,000 רשומות עם תווית כולל עד 15,000 רשומות מתויגות מנתוני רשומות בריאות אלקטרוניות באשפוז ואשפוז חוץ (EHR) ועד 5,000 רשומות שכותרתו מתומללות מתכתיבים רפואיים, מחולקים באופן שווה על פני (1) מוצא גיאוגרפי ו-( 2) התמחויות רפואיות זמינות.

אז, לסיכום האתגרים:

  • ארגן נתונים קליניים הטרוגניים כדי להכשיר את פלטפורמת NLP
  • זהה את הקשר בין ישויות שונות כדי להפיק מידע קריטי
  • יכולת ומומחיות לתייג / להעיר מערך רחב של מסמכים קליניים מורכבים
  • שמירה על עלות בקרה כדי לתייג / להעיר כמות גדולה של נתונים כדי להכשיר NLP קליני במסגרת הזמן שנקבעה
  • הערה ישויות במערך הנתונים הקליני המורכב מ-75% רשומות EHR ו-25% רשומות הכתבה.
  • ביטול זיהוי נתונים בזמן המסירה

אתגרים אחרים בהבנת השפה הטבעית

דו משמעות

מילים הן ייחודיות אך יכולות להיות להן משמעויות שונות בהתאם להקשר וכתוצאה מכך לעמימות ברמה המילונית, התחבירית והסמנטית.

נִרדָפוּת

אנחנו יכולים לבטא את אותו רעיון עם מונחים שונים שהם גם מילים נרדפות: גדול וגדול פירושם אותו דבר כשמתארים אובייקט.

התייחסות

תהליך מציאת כל הביטויים המתייחסים לאותה ישות בטקסט נקרא רזולוציית coreference.

אישיות, כוונה, רגשות

בהתאם לאישיות הדובר, כוונתו ורגשותיו, עשויים לבוא לידי ביטוי באופן שונה עבור אותו רעיון.

פתרון

נפח גדול של נתונים וידע רפואיים זמין, בצורה של מסמכים רפואיים, אך הוא בעיקר בפורמט לא מובנה. עם הערת ישות רפואית / הערת ישות בשם (NER), שייפ הצליחה להמיר נתונים לא מובנים לפורמט מובנה על ידי הערת מידע שימושי מסוגים מגוונים של רשומות קליניות. לאחר זיהוי הישויות, גם הקשר ביניהן מופו לזיהוי מידע קריטי.

היקף העבודה: הערת אזכור של ישות הבריאות

9 סוגי ישויות

  • מצב רפואי
  • הליך רפואי
  • מבנה אנטומי
  • רפואה
  • מכשיר רפואי
  • מדידת גוף
  • התמכרות לסמים ואלכוהול
  • נתוני מעבדה
  • תפקוד הגוף

17 משנה

  • משנה תרופות: חוזק, יחידה, מינון, מאת, תדירות, מסלול, משך, סטטוס
  • משנה מדידת גוף: ערך, יחידה, תוצאה
  • משנה נוהל: שיטה
    • שינוי נתוני מעבדה: ערך מעבדה, יחידת מעבדה, תוצאת מעבדה
  • חומרה
  • תוצאת ההליך

27 מערכות יחסים ומצב מטופל

תוֹצָאָה

הנתונים המובאים ישמשו לפיתוח והדרכה של פלטפורמת ה-NLP הקלינית של הלקוח, שתשולב בגרסה הבאה של Healthcare API שלהם. היתרונות שהפיק הלקוח היו:

  • הנתונים עם תווית/הערות עמדו בהנחיות הסטנדרטיות של הלקוח להערות נתונים.
  • נעשה שימוש במערכי נתונים הטרוגניים כדי לאמן את פלטפורמת NLP לדיוק רב יותר.
  • קשר בין ישויות שונות, כלומר מבנה גוף אנטומי <> מכשיר רפואי, מצב רפואי <> מכשיר רפואי, מצב רפואי <> תרופות, מצב רפואי <> נוהל זוהו כדי להפיק מידע רפואי קריטי.
  • קבוצת הנתונים הרחבה שסומנו/הוערה בוטלה גם היא בזמן המסירה.

שיתוף הפעולה שלנו עם שייפ קידם באופן משמעותי את הפרויקט שלנו בתחום טכנולוגיית הסביבה ו-Conversational AI בתחום הבריאות. המומחיות שלהם ביצירה ותמלול של דיאלוגים בריאותיים סינתטיים סיפקה בסיס איתן, והציגה את הפוטנציאל של נתונים סינתטיים בהתגברות על אתגרים רגולטוריים. עם Shaip, ניווטנו את המכשולים הללו וכעת אנחנו צעד קרוב יותר למימוש החזון שלנו לגבי פתרונות בריאות אינטואיטיביים.

זהב-5 כוכבים

האץ את ה- AI השיחתי שלך
פיתוח אפליקציות ב 100%