אלגוריתם מיקסום התוחלת

דוגמה לשימוש באלגוריתם EM לצורך אשכול (Clustering). בדוגמה זו מוצג מידע על התפרצויות גייזר אולד פיית'פול ציר ה-X משך ההתפרצות של גייזר, וציר ה-Y הזמן שחלף מההתפרצות הקודמת. האלגוריתם מגיע להתכנסות ולסיווג לשני סוגים.

אלגוריתם מיקסום התוחלת (באנגלית: Expectation–maximization; ובראשי תיבות: EM) הוא שיטה איטרטיבית למציאת אומדי נראות מקסימלית לפרמטרים, במודלים סטטיסטיים התלויים במשתנים חבויים שלא נצפו. מודל איטרציה זה עובר בין שני שלבים: שלב התוחלת (שלב ה-E), אשר יוצר פונקציה על התוחלת של לוג הנראות המוערך באמצעות האומדן הנוכחי עבור הפרמטרים, ושלב מקסום (שלב ה-M), אשר מחשב את הפרמטרים כדי למקסם את תוחלת לוג הנראות שנמצאו בשלב התוחלת. פרמטרי הערכות אלה משמשים לאחר מכן לקבוע את ההתפלגות של המשתנים החבויים בשלב התוחלת הבא.

היסטוריה

אלגוריתם EM הוסבר וקיבל את שמו לראשונה בשנת 1977 במאמר מאת ארתור דמפסטר, נאן ליירד, ודונלד רובין. מחברים אלה ציינו שהשיטה הועלתה בעבר בנסיבות שונות על ידי מחברים אחרים. דמפסטר-ליירד-רובין הגדירו את שיטת תוחלת-מקסום ככלי חשוב בניתוח סטטיסטי, לפתרון מגוון רחב ביותר של בעיות. ניתוח ההתכנסות של דמפסטר-ליירד-רובין היה פגום, וניתוח התכנסות נכון פורסם על ידי ס.פ ג'ף וו ב-1983.

מבוא

אלגוריתם EM משמש למציאת משתני הנראות המקסימלית במקרים שבהם לא ניתן לפתור את המשוואה באופן ישיר. בדרך כלל מודל מסוג זה מכיל משתנים סמויים, משתנים לא ידועים ומאגר נתונים ידוע. מציאת פתרון נראות מרבית דורש שימוש בנגזרות של פונקציית הנראות המתייחסת לכל המשתנים הידועים. במודלים סטטיסטיים המכילים משתנים סמויים שיטה זו אינה מתאפשרת, ולכן הפתרון הוא קבוצה של משוואות כאשר פתרון המשוואות הללו דורש את ערכי המשתנים הסמויים ולהפך. אולם החלפת סט משוואות מסוים באחר תיצור משוואה ללא פתרון.

אלגוריתם EM נובע מההנחה שזו הדרך היחידה לפתרון שתי המשוואות הללו באופן מספרי. אפשר פשוט לבחור ערכים שרירותיים לאחת משתי הקבוצות, להשתמש בהם כדי להעריך את הקבוצה השנייה, ולאחר מכן להשתמש בערכים החדשים אלה כדי למצוא אומדן טוב יותר לקבוצה הראשונה, ולאחר מכן לשמור לסירוגין בין שתיים עד שהערכים וגם התוצאה יתכנסו לנקודות קבועות. התכנסות זו נובעת מכך שהנגזרת של הנראות היא אפס בנקודה זו (או, לפחות, קטנה כרצוננו), ולכן הנקודה היא מקסימום או נקודת אוכף. באופן כללי ייתכן שיש מקסימום מרובה, ואין שום ערובה לכך שהמקסימום הגלובלי יימצא. ישנן פונקציות נראות מסוימות אשר יש גם בהם סינגולריות, כלומר מקסימום שטותי.

תיאור מתמטי

בהינתן מודל סטטיסטי המורכב מסדרת מדידות X, קבוצת נתונים סמויים שאינם נראים או ערכים חסרים Z, ווקטור של פרמטרים לא ידועים θ, ופונקציית נראות $L (𝜽; 𝐗, 𝐙) = p (𝐗, 𝐙 | 𝜽)$ , הערכת הנראות המרבית של הפרמטרים הלא ידועים נקבעת על ידי הנראות השולית של נתונים הנצפים: $L (𝜽; 𝐗) = p (𝐗 | 𝜽) = \sum_{𝐙} p (𝐗, 𝐙 | 𝜽)$ אלגוריתם EM מבקש למצוא את הערכת הנראות המרבית של הנראות השולית על ידי יישום איטרטיבי של שני הצעדים הבאים:

שלב תוחלת (שלב ה-E): חישוב תוחלת הלוגריתם של פונקציית הנראות, ביחס להתפלגות המותנית של X ו-Z, תחת האומדן הנוכחי של הפרמטרים $𝜽^{(t)}$ :

Q (𝜽 | 𝜽^{(t)}) = E_{𝐙 | 𝐗, 𝜽^{(t)}} [\log L (𝜽; 𝐗, 𝐙)]

שלב מקסום (שלב ה-M): מצא את הפרמטר שמגדיל כמות זו: $𝜽^{(t + 1)} = \underset{𝜽}{a r g m a x} Q (𝜽 | 𝜽^{(t)})$

המודלים שבהם אופייני להשתמש באלגוריתם EM:

הערכים שנמדדו X יכולים להיות בדידים או רציפים (מקבלים ערכים מקבוצה אינסופית). למעשה ייתכן שיש וקטור של ערכים בכל אחת מהתצפיות.
הערכים החסרים Z הם בדידים, ונמשכים ממספר קבוע של משתנים, ויש משתנה חבוי אחד לכל קבוצת משתנים שנצפתה.
הפרמטרים הם רציפים, ומשני סוגים: פרמטרים הקשורים לכל נקודות הנתונים ופרמטרים הקשורים עם ערך מסוים של המשתנה הסמוי.

עם זאת, ניתן להחיל את אלגוריתם EM על כל מיני מודלים.

המוטיבציה היא כזו: אם אנחנו יודעים את הערך של הפרמטר θ, אנחנו בדרך כלל יכולים למצוא את ערכיהם של המשתנים הסמויים Z על ידי מקסימיזציית לוג הנראות על כל הערכים האפשריים של Z, אפשר פשוט על ידי איטרציה על Z או דרך אלגוריתם כגון אלגוריתם ויטרבי עבור מודלי מרקוב חבויים. לעומת זאת, אם אנחנו יודעים את הערך של המשתנים הסמויים Z, נוכל להעריך את הפרמטר θ בקלות יחסית, בדרך כלל על ידי קיבוץ הנתונים שנצפו על פי ערכו של המשתנה הסמוי הקשור, וחישוב הממוצע (או פונקציה כלשהי) של ערכי הנקודות בכל קבוצה. הדבר מצביע על אלגוריתם איטרטיבי, במקרה שבו הן הקבוצה Z והן הווקטור θ לא ידוע:

ראשית, צריך לאתחל את הפרמטר θ לערך אקראי כלשהו.
לחשב את ההסתברות לכל ערך Z לפי ערכי פרמטרים אלה.
להשתמש בערכי Z שחושבו, לחישוב אומדן טוב יותר עבור הפרמטר θ. פרמטרים הקשורים לערך מסוים של Z ישמשו רק עם נקודות המידע אשר המשתנים החבויים שמקושרים איתם הם בעלי אותו הערך.
לחזור על השלבים 2 ו-3 עד להתכנסות.

הוכחת נכונות

אלגוריתם EM פועל לשיפור $Q (𝜽 | 𝜽^{(t)})$ במקום ישירות לשיפור $\log p (𝐗 | 𝜽)$ . כאן אנו מראים כי שיפורים לראשון רומזים לשיפורים לאחרון. עבור כל Z בהסתברות שאינה אפס $p (𝐙 | 𝐗, 𝜽)$ אנחנו יכולים לכתוב: $\log p (𝐗 | 𝜽) = \log p (𝐗, 𝐙 | 𝜽) - \log p (𝐙 | 𝐗, 𝜽)$

אנחנו לוקחים את התוחלת על ערכים של Z על ידי הכפלת שני הצדדים ב- $p (𝐙 | 𝐗, 𝜽^{(t)})$ וסיכום על Z. צד שמאל הוא תוחלת של קבוע, כך שאנו מקבלים:

\begin{matrix} \log p (𝐗 | 𝜽) & = \sum_{𝐙} p (𝐙 | 𝐗, 𝜽^{(t)}) \log p (𝐗, 𝐙 | 𝜽) - \sum_{𝐙} p (𝐙 | 𝐗, 𝜽^{(t)}) \log p (𝐙 | 𝐗, 𝜽) \\ = Q (𝜽 | 𝜽^{(t)}) + H (𝜽 | 𝜽^{(t)}) \end{matrix}

$H (𝜽 | 𝜽^{(t)})$ מוגדר על ידי הסכום הנשלל שהוא מחליף. המשוואה זו מחזיקה עבור כל ערך θ כולל $𝜽 = 𝜽^{(t)}$ ,

\log p (𝐗 | 𝜽^{(t)}) = Q (𝜽^{(t)} | 𝜽^{(t)}) + H (𝜽^{(t)} | 𝜽^{(t)})

וחיסור המשוואה האחרונה, זו מהמשוואה הקודמת נותן

\log p (𝐗 | 𝜽) - \log p (𝐗 | 𝜽^{(t)}) = Q (𝜽 | 𝜽^{(t)}) - Q (𝜽^{(t)} | 𝜽^{(t)}) + H (𝜽 | 𝜽^{(t)}) - H (𝜽^{(t)} | 𝜽^{(t)})

עם זאת, אי השוויון של גיבס אומר לנו $H (𝜽 | 𝜽^{(t)}) \geq H (𝜽^{(t)} | 𝜽^{(t)})$ .

מאפיינים

שלב התוחלת הוא קצת מטעה. בשלב הראשון מה שמחושב הם הפרמטרים הקבועים, פרמטרים תלויי נתונים של הפונקציה Q. ברגע שהפרמטרים של הפונקציה Q ידועים, הם נקבעים באופן סופי ומובאים לידי מקסימום בשלב השני של המקסום.

על אף פעולת האיטרציה באלגוריתם EM מגדילה את המידע הידוע על פונקציית הנראות, אין בכך ערובה שהתהליך יוביל בסופו של דבר לאומדן נראות מרבי. כלומר, אלגוריתם EM עשוי להתכנס למקסימום מקומי של פונקציית נראות שנצפתה, בהתאם לערכי ההתחלה. ישנם מגוון של גישות היוריסטיות ליציאה ממקסימום מקומי כגון אתחול אקראי או בשימוש בשיטות חישול מדומה.

שימוש באלגוריתם EM הוא שימושי במיוחד כאשר הנראות היא ממשפחת המעריכיים. צעד התוחלת הופך לסכום של תוחלות של סטטיסטים מספיקים וצעד המקסום דואג למקסם את הפונקציה הליניארית. במקרה כזה, בדרך כלל ניתן לגזור עדכוני צורה סגורות לכל שלב, תוך שימוש בנוסחת סונדברג.

יישומים

מסנן קלמן משמש בדרך כלל עבור מדיניות הערכה online, ומינימום שונות חלקות עשויים להיות במדיניות הערכה off-line או הערכת מצב באצווה. פתרונות שונים דורשים הערכות של הפרמטרים מודל מרחב מצבים. סינון ושיפור אלגוריתמי תוחלת-מקסום עשויה להתרחש על ידי חזרה על ההליך בן שני השלבים הבאים:

שלב התוחלת להפעיל מסנן קלמן או על החלקת מינימום-סטיה מעוצבת עם הערכת הפרמטר הנוכחי כדי לקבל הערכת מצב מעודכנת.

שלב המקסום השתמש בהערכות המצב המסוננות או המוחלקות בחישוב הנראות המקסימלית, כדי לקבל אומדני פרמטר מעודכנים. נניח שמסנן קלמן או מינימום שונות חלקה יותר פועל על מדידות רועשות של מערכת יחיד קלט יחיד פלט. ניתן לקבל אומדן שונות רעש מדידה מעודכן מחישוב הנראות המקסימלית.

${\hat{σ}}_{v}^{2} = \frac{1}{N} \sum_{k = 1}^{N} {(z_{k} - {\hat{x}}_{k})}^{2}$

כאשר ${\hat{x}}_{k}$ הם אומדני תפוקת סקלר מחושבים על ידי מסנן או חלק ממדידות סקלר N $z_{k}$ . לתהליך אוטומטי רגרסיבית מסדר ראשון, אומדן שונות רעש תהליך מעודכן יכול להיות מחושב על ידי ${\hat{σ}}_{w}^{2} = \frac{1}{N} \sum_{k = 1}^{N} {({\hat{x}}_{k + 1} - \hat{F} {\hat{x}}_{k})}^{2}$ .

כאשר ${\hat{x}}_{k}$ ו- ${\hat{x}}_{k + 1}$ אומדני מדינת סקלר מחושבים על ידי מסנן או חלק יותר. ההערכה מקדם מודל המעודכן מתקבלת באמצעות: $\hat{F} = \frac{\sum_{k = 1}^{N} ({\hat{x}}_{k + 1} - \hat{F} {\hat{x}}_{k})}{\sum_{k = 1}^{N} {\hat{x}}_{k}^{2}}$ .

גרסאות

מספר שיטות הוצעו על מנת להאיץ את ההתכנסות האטית של אלגוריתם EM, כדוגמת אלה המשתמשים בשיפוע צמוד והותאם לטכניקות ניוטון-רפסון. בנוסף ניתן להשתמש ב-EM לטכניקות הערכה מאולצות. מקסום מותנה תוחלת מחליף כל צעד של מקסום עם רצף של שלבי מקסום מותנים שבכל פרמטר θi מוגדל באופן אישי, בין התנאים על הפרמטרים האחרים שנותרו קבועים. רעיון זה, להאריך את האלגוריתם עוד יותר במקסום תוחלת כללי, שבו רק אחד מבקש עלייה בפונקציית המטרה F עבור שני הצעדים תוחלת ומקסום תחת התיאור החלופי. ניתן גם לשקול את אלגוריתם EM כסדרה של אלגוריתם מקסום-מקסום, ולכן ניתן שימוש בכל המכונות שפותחו במקרה הכללי יותר.

אלגוריתם EM-α

הפונקציה Q המשמשת באלגוריתם EM מבוססת על לוגריתם הנראות. לכן, הוא נחשב לאלגוריתם לוג-תוחלת-מקסום. ניתן להכליל לשימוש בלוג הנראות של יחס סיכוי α-לוג. לאחר מכן, יחס הנראות של לוג-α של הנתונים שנצפו יכול לבוא לידי ביטוי בדיוק כשוויון באמצעות הפונקציה Q של יחס סיכוי α-log ו-α-הסטייה. קבלת פונקציה Q זו היא צעד תוחלת כללי. המקסום שלה הוא צעד מקסום כללי. זוג זה נקרא אלגוריתם EM-α אשר מכיל את אלגוריתם לוג-תוחלת-מקסום. לכן, אלגוריתם EM-α הוא הכללה של אלגוריתם לוג-תוחלת-מקסום מדויקת. אין צורך בחישוב מטריצת שיפוע או הסיאן. ניתן לראות באלגוריתם EM-α התכנסות מהירה יותר מאשר אלגוריתם לוג-תוחלת-מקסום על ידי בחירת α מתאים. אלגוריתם EM-α מוביל לגרסה מהירה יותר של אלגוריתם אמידת מודל מרקוב חבוי α-HMM.

הקשר לשיטות בייס השונות

תוחלת-מקסום הוא באופן חלקי שיטת נראות השונה מהשיטה הבייסיאנית. התוצאה הסופית שלה נותנת התפלגות הסתברות על המשתנים החבויים (בסגנון בייס) יחד עם אומד נקודתי ל-θ. אנחנו אולי רוצים גרסה בייסיאנית מלאה, בהינתן התפלגות הסתברות על θ, כמו גם את המשתנים החבויים. למעשה ניתן להסיק מהגישה של בייס ש-θ היא עוד משתנה סמוי. ההבחנה בין צעדי התוחלת והמקסום נעלמת. אם אנו משתמשים בגרסה המלאה לקירוב Q כפי שתואר לעיל (הווריאציה של בייס), אנו עשויים לחזור על כל המשתנים הסמויים ולייעל אותם אחד בכל פעם. כעת יש k צעדים לכל איטרציה, כאשר k הוא מספר המשתנים הסמויים. למודלים גרפיים קל לעשות תלויי Q לכל משתנים, רק בשמיכת מרקוב שלה, כך שהעברת מידע מקומית יכולה לשמש למסקנה יעילה.

דוגמאות

שלב התוחלת

בהתחשב בהערכה הנוכחית שלנו של θ הפרמטרים (t), ההתפלגות המותנה של Z_i נקבעה על ידי משפט בייס להיות הגובה היחסי של הצפיפות הנורמלית משוקללת לפי τ $T_{j, i}^{(t)} : = P (Z_{i} = j | X_{i} = 𝐱_{i}; θ^{(t)}) = \frac{τ_{j}^{(t)} f (𝐱_{i}; 𝝁_{j}^{(t)}, σ_{j}^{(t)})}{τ_{1}^{(t)} f (𝐱_{i}; 𝝁_{1}^{(t)}, σ_{1}^{(t)}) + τ_{2}^{(t)} f (𝐱_{i}; 𝝁_{2}^{(t)}, σ_{2}^{(t)})}$ .

אלה נקראים הסתברויות החברות ואלו בדרך כלל נחשבים לפלט, צעד E זה תואם את הפונקציה עבור Q הבא: $\begin{matrix} Q (θ | θ^{(t)}) & = E [\log L (θ; 𝐱, 𝐙)] \\ = E [\log \prod_{i = 1}^{n} L (θ; 𝐱_{i}, 𝐳_{i})] \\ = E [\sum_{i = 1}^{n} \log L (θ; 𝐱_{i}, 𝐳_{i})] \\ = \sum_{i = 1}^{n} E [\log L (θ; 𝐱_{i}, 𝐳_{i})] \\ = \sum_{i = 1}^{n} \sum_{j = 1}^{2} T_{j, i}^{(t)} [\log τ_{j} - \frac{1}{2} \log | σ_{j} | - \frac{1}{2} (𝐱_{i} - 𝝁_{j})^{⊤} σ_{j}^{- 1} (𝐱_{i} - 𝝁_{j}) - \frac{d}{2} \log (2 π)] \end{matrix}$

אין צורך לחשב את ערכו של הביטוי, כי בשלב M אנו דורשים רק את המונחים בהתאם τ כאשר אנו נמקסם את τ, או רק את המונחים בהתאם μ אם אנחנו נמקסם עבור μ.

M step

הוא ביטוי ריבועי ב- Q(θ|θ^(t) משמעות הדבר היא כי קביעת הערכים עבור מקסום של θ היא פשוטה יחסית. שימו לב כי ניתן להגדיל כל אחד מבין (τ, (μ₁, Σ₁) ו-(μ₂, Σ₂), באופן בלתי תלוי, שכן כל שהם מופיעים בתנאים ליניארי נפרדים. כדי להתחיל, לשקול τ, שבה יש מגבלת τ₁, τ₂ = 1

$\begin{matrix} 𝝉^{(t + 1)} & = \underset{𝝉}{a r g m a x} Q (θ | θ^{(t)}) \\ = \underset{𝝉}{a r g m a x} {[\sum_{i = 1}^{n} T_{1, i}^{(t)}] \log τ_{1} + [\sum_{i = 1}^{n} T_{2, i}^{(t)}] \log τ_{2}} \end{matrix}$

שיש לה הצורה של אומד נראות מקסימלית להתפלגות הבינומית, ולכן

$τ_{j}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{j, i}^{(t)}}{\sum_{i = 1}^{n} (T_{1, i}^{(t)} + T_{2, i}^{(t)})} = \frac{1}{n} \sum_{i = 1}^{n} T_{j, i}^{(t)}$

עבור האומדנים הבאים של (μ₁, σ₁)

$\begin{matrix} (𝝁_{1}^{(t + 1)}, σ_{1}^{(t + 1)}) & = \underset{𝝁_{1}, σ_{1}}{a r g m a x} Q (θ | θ^{(t)}) \\ = \underset{𝝁_{1}, σ_{1}}{a r g m a x} \sum_{i = 1}^{n} T_{1, i}^{(t)} {- \frac{1}{2} \log | σ_{1} | - \frac{1}{2} (𝐱_{i} - 𝝁_{1})^{⊤} σ_{1}^{- 1} (𝐱_{i} - 𝝁_{1})} \end{matrix}$

זו יש לה הצורה כאומד נראות מקסימלית משוקלל להתפלגות נורמלית, ולכן

$𝝁_{1}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{1, i}^{(t)} 𝐱_{i}}{\sum_{i = 1}^{n} T_{1, i}^{(t)}}$ וגם $σ_{1}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{1, i}^{(t)} (𝐱_{i} - 𝝁_{1}^{(t + 1)}) (𝐱_{i} - 𝝁_{1}^{(t + 1)})^{⊤}}{\sum_{i = 1}^{n} T_{1, i}^{(t)}}$

ומסימטריה:

$𝝁_{2}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{2, i}^{(t)} 𝐱_{i}}{\sum_{i = 1}^{n} T_{2, i}^{(t)}}$ וגם $σ_{2}^{(t + 1)} = \frac{\sum_{i = 1}^{n} T_{2, i}^{(t)} (𝐱_{i} - 𝝁_{2}^{(t + 1)}) (𝐱_{i} - 𝝁_{2}^{(t + 1)})^{⊤}}{\sum_{i = 1}^{n} T_{2, i}^{(t)}}$ .

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

אלגוריתם מיקסום התוחלת28410532

	יש לערוך ערך זה. ייתכן שהערך סובל מבעיות ניסוח, סגנון טעון שיפור או צורך בהגהה, או שיש לעצב אותו, או מפגמים טכניים כגון מיעוט קישורים פנימיים.
	אתם מוזמנים לסייע ולערוך את הערך. אם לדעתכם אין צורך בעריכת הערך, ניתן להסיר את התבנית.	עריכה

יש לערוך ערך זה. ייתכן שהערך סובל מבעיות ניסוח, סגנון טעון שיפור או צורך בהגהה, או שיש לעצב אותו, או מפגמים טכניים כגון מיעוט קישורים פנימיים.
אתם מוזמנים לסייע ולערוך את הערך. אם לדעתכם אין צורך בעריכת הערך, ניתן להסיר את התבנית.