הַגדָרָה
סיווג אודיו הוא תהליך של הקצאת תוויות להקלטות אודיו בהתבסס על תוכנן. קטגוריות עשויות לכלול דיבור, מוזיקה, קולות של בעלי חיים, אזעקות או רעש סביבתי.
מטרה
המטרה היא להפוך את הזיהוי והקטגוריזציה של צלילים לאוטומטיים, ולהפוך את השמע לניתן לחיפוש וניתוח על ידי בינה מלאכותית. הוא נמצא בשימוש נרחב במערכות בטיחות, ארגון מדיה וטכנולוגיות מסייעות.
חשיבות
- מאפשר אוטומציה בזיהוי דיבור, מוזיקה וצלילים.
- משפר את הנגישות באמצעות ממשקים מבוססי אודיו.
- מסתמך על נתוני אימון מגוונים לדיוק בתנאים שונים.
- שגיאות יכולות להשפיע על יישומים קריטיים לבטיחות (למשל, אזעקות).
איך זה עובד
- לכידת או ייבוא של אותות שמע גולמיים.
- לחלץ תכונות כגון ספקטרוגרמות או MFCCs.
- לאמן מסווגים (למשל, רשתות עצביות) על נתונים מתויגים.
- הערכת דיוק מול קבוצות בדיקה.
- פריסת מודלים לסיווג בזמן אמת או אצווה.
דוגמאות (העולם האמיתי)
- Shazam: מזהה רצועות מוזיקה מקטעי אודיו קצרים.
- מסווג צלילים של גוגל: מזהה צלילים יומיומיים כמו נביחות או סירנות.
- BirdNET: מזהה מיני ציפורים על סמך שירים וקריאות מוקלטות.
מקורות / קריאה נוספת
- סיווג אודיו בעזרת למידת מכונה — TensorFlow.
- סיווג רעש סביבתי עם CNNs — IEEE (Piczak, 2015).
- למידת מכונה לעיבוד אותות שמע — MIT OpenCourseWare.