מערכת זיהוי דיבור

מתוך המכלול, האנציקלופדיה היהודית
(הופנה מהדף מערכת זיהוי קול)
קפיצה לניווט קפיצה לחיפוש

מערכת זיהוי דיבור או מערכת זיהוי קול היא מערכת ממוחשבת (תוכנה וחומרה או תוכנה בלבד) המסוגלת לפענח דיבור אנושי. הקלט למערכת מגיע ממיקרופון שאליו מדבר המשתמש, משיחת טלפון הנקלטת במערכת וכיוצא בזה. נהוג להבחין בין זיהוי דיבור שמטרתו לזהות את תוכן הדיבור (לצורך ביצוע פקודה או רישום טקסט) לזיהוי קול שמטרתו לזהות דובר לא ידוע, לאמת זהות דובר ידוע או לאפיין את הדיבור שלו (למשל, בעבר נעשה ניסיון להעריך האם אדם מסוים דובר שקר או אמת לפי הקול שלו).

תוכנות מובילות בתחום ההכתבה מאז שנות השמונים היו: ViaVoice של חברת IBM‏, Dragon NaturallySpeaking של חברת "דרגון דיקטייט" ו-MacSpeech Dictate. בחלק מגרסאות Windows Vista ו-Windows 7 יש מערכת זיהוי דיבור מובנת.

שימושים

שימושים נפוצים במערכות זיהוי דיבור:

  • תפעול מחשב תוך הפחתת או ביטול הצורך לגעת בו בעזרת הידיים, כאשר למשתמש המחשב יש לקות תנועה בגפיים העליונות[1], או כאשר הוא במצב בו ידיו עסוקות (כגון נהיגה[2] או מתן טיפול רפואי[3]). תפעול זה כולל, בחלק מהמקרים, הכתבת מסמכים (Speech To Text).
  • ברוב מכשירי הטלפון הסלולרי יש מערכת זיהוי דיבור, שמאפשרת לחייג למספר טלפון לפי חתימת קול שיצר המשתמש.
  • מרכזת טלפונים הפועלת באמצעות זיהוי דיבור מאפשרת למתקשר לומר את שם האדם שאיתו הוא מבקש לדבר, ולקשר אותו לאדם המבוקש.
  • זיהוי ביומטרי במערכות אבטחה, למשל זיהוי הפונים למוקד טלפוני של בנק. בשימוש זה לא נדרש זיהוי דיבור, אלא זיהוי של תבנית הקול של הדובר.

שימושים פחות מקובלים של מערכות אלה:

  • סיוע בהפעלת מחשב לאנשים עם מגוון לקויות שאינן לקויות תנועה[4].
  • נתינת אשליה למשתמש מציאות מדומה שהוא מדבר אל דמויות בדיוניות ולא אל מחשב.
  • תזמון אוטומטי של כתוביות נגישות לחירשים בסרטים. דהיינו, את הכתוביות אמנם כותב אדם, אך מערכת זיהוי קולי יכולה לפתור את האדם מאיתור הקטע הנכון בסרט להדבקה של כל הכתובית[5].

שימושים שעשויים להיות למערכות אלה בעתיד:

  • הפעלת מחשב והכתבת מסמכים (Speech To Text).
  • סיוע בקלינאות תקשורת.
  • ייצור אוטומטי של כתוביות נגישות לחירשים בסרטי ווידאו.

יעילות של זיהוי דיבור

מערכות זיהוי דיבור כקלט להפעלת המחשב נמצאות בשימוש הציבור מאז סוף שנות השמונים. נכון לסוף העשור הראשון של שנות האלפיים, אדם בעל תפקוד ידיים תקין הנמצא במצב שבו ידיו פנויות להקלדה, יחבר תמליל מהר יותר בהקלדה מאשר בדיבור אל המחשב. זאת משום שתיקון שגיאות הקלט הרבות של מערכות אלה גוזל זמן רב. מקליד זריז עשוי להגיע לקצב הקלדה של 100 מילים בדקה, בעוד שאדם מיומן בחיבור תמליל בעזרת מערכת לזיהוי דיבור יגיע לפחות מחמישים מילים לדקה וגם זאת אחרי שהמחשב כוונן לקולו ואחרי שהשגיאות הטיפוסיות לקלט מהדיבור שלו הוזנו בפונקציית תיקון השגיאות האוטומטית[6].

מעבר לזאת, במשימות הקלדה קצרות (שני משפטים ומטה), נכה שכיוון את מערכת זיהוי הקול שלו על ידי מומחה יכול להשיג תוצאות דומות לאלה של אדם חסר לקות[7].

יש אנשים שההקלדה על מקלדת גרמה להם פציעות מאמץ חוזרני, כגון תסמונת תעלת שורש היד. חלק מהאנשים האלה עוברים לשימוש במערכת זיהוי דיבור במקום במקלדת כלשהי. אצל חלק מהאנשים העוברים למערכות זיהוי קולי בשל פציעת מאמץ חוזרני שהתפחתה מהקלדה מתפתחות פגיעות תנועות חוזרניות בגרון[8]. ההנחה היא שפציעות אלה מתפתחות בשל העובדה שמערכת זיהוי דיבור של מחשב מאלצת את המשתמש לדבר באופן לא טבעי ומשום שפגיעות תנועות חוזרניות מופיעות אצל מי שיש לו נטייה לחזרתיות תנועתית מדויקת[9]. לכן מומלץ, למי שחש שמקלדת מונעת פציעה לא מועילה לו מספיק, לחלק את עבודת חיבור התמליל בין מקלדת מונעת פציעה לבין מערכת זיהוי דיבור.

השפות בהן קיימות מערכות אלה

מגבלה נוספת לעבודה עם מערכות זיהוי דיבור היא, שנכון לשנת 2010, במרבית שפות הדיבור, מערכות אלה מוגבלות מאוד אם הן קיימות בכלל. מערכות המאפשרות זיהוי פקודות בלבד או בחירה מתוך תפריט מצומצם קיימות בעשרות שפות בלבד[10], זאת לעומת מאות השפות שבהן המחשב יכול לקבל מידע דרך המקלדת. יתרה מזאת, מערכות המאפשרות חיבור תמליל ארוך קיימות בשפות בודדות. מערכת זיהוי הדיבור המובנת במערכות ההפעלה של מיקרוסופט, לדוגמה, מזהה רק דיבור באנגלית, גרמנית, צרפתית, ספרדית, מנדרין וסינית מופשטת[11]. המערכת גם דורשת ששפת ממשק התצוגה של מערכת ההפעלה תהייה אחת משפות אלה; אי אפשר, למשל, להפעיל את זיהוי דיבור באנגלית, כאשר שפת התצוגה של המחשב היא עברית.

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא מערכת זיהוי דיבור בוויקישיתוף

הערות שוליים

  1. ^ Koester, H.H.: Usage, performance, and satisfaction outcomes for experienced users of automatic speech recognition. Journal of Rehabilitation Research and Development 41 (5) 739-754, 2004
  2. ^ Tsimhoni, O. Smith, D. and Green, P.: Address entry while driving: speech recognition versus a touch-screen keyboard. Human factors 46 (4) 600-10, 2004
  3. ^ Nagy, M., Hanzlicek, P., Zvarova, J., Dostalova, T., Seydlova, M., Hippman, R., Smidl, L., Trmal, J., Psutka, J.: Voice-controlled data entry in dental electronic health record. Studies in Health Technology and Informatics, 136 529-34, 2008[1]
  4. ^ Wade, J., Petheram, B., and Cain, R.: Voice recognition and aphasia: can computers understand aphasic speech? Disability and Rehabilitation 23(14) 604-13, 2001
  5. ^ Archived Webinars | Google, Adobe Share Their Video Accessibility Strategies סמינר של אנשי הנגישות של חברת אדולבי וחברת גוגל בנושא נגישות סרטים באינטרנט
  6. ^ Mitchard, H. and Winkles, J.: Experimental comparisons of data entry by automated speech recognition, keyboard, and mouse. Human factors 44 (2) 198-209, 2002
  7. ^ דומן ומזר, מדריך לבדיקת יעילות הקלדה ACPT, עמוד 9 [2]
  8. ^ Muscle tension dysphonia in patients who use computerized speech recognition systems. Olson DE, Cruz RM, Izdebski K, Baldwin T. Ear Nose Throat J. 2004 Mar;83(3):195-8
  9. ^ הופעת פציעות התנועה החוזרנית בגרון אצל מי שהתנזר מהקלדה עקב פציעות תנועה חוזרניות בידיים דורשת מחקר נוסף.
  10. ^ Nuance Recognizer features 56 languages and dialects
  11. ^ Windows Speech Recognition, נגישות מיקרוסופט