הַגדָרָה
זיהוי ישויות בשם (NER) היא משימה של NLP שמזהה ומסווגת ישויות בטקסט, כגון אנשים, ארגונים, מיקומים, תאריכים או מוצרים.
מטרה
המטרה היא לבנות טקסט לא מובנה על ידי חילוץ ישויות מפתח. הוא תומך בחיפוש, חילוץ מידע ובניית גרף ידע.
חשיבות
- יסודות לאחזור מידע וצינורות NLP.
- שגיאות מתפשטות ליישומים במורד הזרם.
- NER ספציפי לתחום (למשל, רפואי, משפטי) דורש מערכי נתונים מותאמים אישית.
- קשור למשימות כמו קישור ישויות וחילוץ קשרים.
איך זה עובד
- איסוף ועיבוד מקדים של טקסט.
- הוסף הערות למערכי נתונים עם קטגוריות ישויות.
- אימון מודלים על דוגמאות מתויגות (CRFs, שנאים).
- ניבוי ישויות בטקסט בלתי נראה.
- אימות דיוק באמצעות נתוני בדיקה.
דוגמאות (העולם האמיתי)
- spaCy: ספריית NLP בקוד פתוח עם NER מובנה.
- Stanford CoreNLP: מספק כלים לזיהוי ישויות בעלות שם.
- NLP פיננסי: מחלץ שמות חברות מדוחות.
מקורות / קריאה נוספת
- יוראפסקי ומרטין. עיבוד דיבור ושפה. סטנפורד.
- למפל ואחרים. "ארכיטקטורות נוירונים לזיהוי ישויות בעלות שם." ACL.
- דגמי NER של רובוטריקים עם פנים מחבקות.
- מהי זיהוי ישות בעלת שם (NER)