קידוד חיזוי ליניארי

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

קידוד חיזוי ליניאריאנגלית: Linear Predictive Coding או בקיצור LPC) הוא כלי המשמש בעיקר לעיבוד אותות אודיו ולעיבוד דיבור לייצוג המעטפה הספקטראלית של אות דיבור דיגיטלי בצורה דחוסה, תוך שימוש במידע של מודל חיזוי ליניארי[1]. זוהי אחת הטכניקות החזקות ביותר לניתוח דיבור, ואחת השיטות היעילות ביותר עבור קידוד דיבור באיכות טובה בקצב סיביות נמוך, ומספק הערכות מדויקות ביותר של פרמטרי דיבור.

מבט על

קידוד חיזוי ליניארי מתחיל עם ההנחה כי אות דיבור מיוצר על ידי זמזום בקצה של צינור (קולות דיבור), כאשר מדי פעם נוספים קולות של שריקות ופיצוצים (עיצורים שורקים ועיצורים סותמים). למרות שמודל זה נראה גס, הוא למעשה קירוב טוב של המציאות של קולות דיבור. הגלוטיס (החלל שבין הקפלים הקוליים) מייצר את הזמזום, המאופיין בעוצמתו (עוצמת קול) ותדירות (גובה הצליל). מערכת הקול (הגרון והפה) יוצרת את הצינור, המאופיין על ידי התהודה שלו, אשר מעוררים פורמנטים בצליל המיוצר.

קידוד חיזוי ליניארי מנתח את האות דיבור על ידי אמידת פורמנטים, הסרת ההשפעות שלהם מאות הדיבור, והערכת העוצמה והתדירות של הזמזומים הנותרים. התהליך של הסרת פורמנטים נקרא סינון הפוך, והאות הנותר לאחר חיסור של האות המסונן נקרא אות שארית (residue).

את המספרים המתארים את האינטנסיביות ואת התדירות של הזמזום, הפורמנטים, ואת אות השארית, ניתן לאחסן או להעביר אותם בנפרד. שיטת קידוד החיזוי הליניארי מסנתזת את אות הדיבור על ידי הפיכת התהליך: משתמשת בפרמטרים של הזמזום ואות השארית כדי ליצור אות מקור, אחר כך משתמשת בפורמטים כדי ליצור מסנן (המייצג את הצינור), ולבסוף מעבירה את המקור דרך המסנן, כדי לייצר דיבור.

בגלל שאותות הדיבור משתנים עם הזמן, תהליך זה נעשה על חתיכות קצרות של אות הדיבור, אשר נקראים מסגרות; בדרך כלל 30 עד 50 מסגרות לשנייה מניבות דיבור מובן עם דחיסה טובה.

ייצוג מקדמים של קידוד חיזוי ליניארי

קידוד חיזוי ליניארי משמש לעיתים קרובות לשידור מידע לגבי המעטפת הספקטרלית, ולכן הוא צריך להיות מסוגל לספוג שגיאות שידור. העברת מקדמי המסנן ישירות אינה רצויה, שכן הם רגישים מאוד לשגיאות. במילים אחרות, טעות קטנה יכולה לעוות את כל הספקטרום, או גרוע מכך, טעות קטנה עלולה להפוך את מסנן החיזוי לבלתי יציב.

קיימות שיטות מתקדמות לייצוג המקדמים כגון מקדמי החזרה LAR ו -LSP. כאשר האחרונה צברה פופולריות שכן היא מבטיחה יציבות של החזאי ושגיאות ספקטרליות הן מקומיות עבור סטיות מקדמים קטנות.

ראו גם

קישורים חיצוניים

הערות שוליים

  1. ^ Deng, Li; Douglas O'Shaughnessy (2003). Speech processing: a dynamic and optimization-oriented approach. Marcel Dekker. pp. 41–48. ISBN 0-8247-4040-8.
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0