שיטת הריבועים הפחותים

מתוך המכלול, האנציקלופדיה היהודית
גרסה מ־06:16, 4 בספטמבר 2019 מאת מוטיאל (שיחה | תרומות) (החלפת טקסט – "לעתים" ב־"לעיתים")
קפיצה לניווט קפיצה לחיפוש

שיטת הריבועים הפחותים (גם "שיטת הריבועים המזעריים" או "שיטת הריבועים המינימליים") היא שיטת אומדן סטטיסטית, שבה משערכים גודל לא ידוע מתוך קבוצת תוצאות מדודות כלשהן. הראשון שתיאר את השיטה הוא קרל פרידריך גאוס, בתחילת המאה ה-19 בעת שניסה לאמוד את מקומו של כוכב הלכת הננסי קרס. אומדן זה מאפשר השוואה בין ההתאמה של מודלים סטטיסטיים שונים לבין המדידות שהללו מנסים להסביר, כל זמן שהמודלים השונים מציעים נוסחאות מתמטיות שונות מאותו סוג (כגון פולינומים בני אותה מעלה).

מטרת השיטה

לעיתים רוצים למצוא קשר מתמטי בין שני משתנים שהתקבלו במדידות נסיוניות, אך הקשר בין שני המשתנים אינו נראה לעין באופן מיידי. הסיבה לכך היא שעבור כל ערך של משתנה אחד, נמדד במשתנה השני טווח שלם של ערכים, ולא ערך בודד ויחיד. הסיבות לכך רבות ומגוונות, למשל במדידת גודל פיזיקלי: ייתכן שהמשתנה הראשון עצמו אינו קבוע אלא משתנה בתחום מסוים, ייתכן שהוא אינו המשתנה היחיד המשפיע על המשתנה השני (למשל, אם המשתנה השנוי תלוי גם בטמפרטורה), ואף ייתכן שיש מגבלות בציוד המדידה. לכן, כדי לעמוד על טיב הקשר בין המשתנים באופן המדויק ביותר משתמשים בכלים סטטיסטיים. שיטת הריבועים הפחותים היא אחד הכלים הסטטיסטיים הללו.

מקרה חשוב שבו שיטת הריבועים הפחותים בשימוש נפוץ הוא מקרה לינארי. כאשר נתונות m דוגמאות ולכל דוגמה משויכות n תכונות, אם קיים קשר לינארי בין התכונות למשתנה, ניתן לייצגו כמערכת משוואות:

עם m משוואות, ומקדמים לא ידועים β1,β2,…,βn, כאשר m > n, ובייצוג מטריציוני:

כאשר

כיוון שלמערכת המשוואות אין בהכרח פתרון, המטרה היא למצוא את הערכים של β שנותנים את התוצאה ה"קרובה"במובן של מינימיזציה ריבועית:
והפונקציה שאותה ממזערים S היא:

כאשר n העמודות של המטריצה X אינן תלויות לינארית, משפט גאוס-מרקוב קובע כי קיים לבעיית מזעור זו פתרון יחיד:

דוגמאות

דוגמה א'

גיל כל ילד של משפחת סקורפי וגובהו מיוצגים בנקודות הגרף הכחולות. הקו השחור מיצג את המודל הסטטיסטי שנוסחאתו היא y = -0.0617x2 + 6.0388x + 84.415. הקו הצהוב הוא המרחק בין גובהה של הילה סקורפי לגובה שצופה המודל הסטטיסטי לילדים בגילה בני משפחתה. R2 הוא מדד הקשור למדד הריבועים הפחותים אך אינו שווה לו

כאשר מניחים שיש קשר בין משתנה מסוים (X) לבין משתנה אחר (Y), אולם מעריכים שבנוסף ל-X גם משתנים אחרים משפיעים על Y ושלא כל המשתנים האלה ידועים. מציאת מודל סטטיסטי מאפשר הערכה מראש מיטבית של ערכו של Y, על פי ערכו של X. דוגמה למשתנים כאלה היא X = גילו של ילד בשנים ו-Y= גובהו בסנטימטרים. המודל הסטטיסטי שאנו מחפשים הוא נוסחה המקשרת את X ל-Y. נעשית השוואה של הנוסחאות המוצעות השונות, שיש להן אותה מעלה חזקתית בעזרת שיטת הריבועים הפחותים. הנוסחה שנותנת את ערך סכום הריבועים הנמוך ביותר היא זו שמייצגת את הקשר בין המשתנים באופן המיטבי. (השוואה של נוסחאות מסוגים שונים נעשית על ידי מדדים אחרים ולוקחת בחשבון לא רק את דיוק הצפי אלא גם את פשטות הנוסחה. ההנחה היא שעדיף אומדן פשוט ומדויק ושפשטות ודיוק עשויים לבוא זה על חשבון זה).

המחשב משתמש במדד שקרוי R2 להערכת דיוק האומדן שהוא אחת מינוס מנת סכום ריבועי שגיאות האמידה בסכום ריבועי הפרשי ערכי המדידה מהממוצע שלהם[1]. היתרון של השימוש במדד זה על מדד הריבועים הפחותים הוא שניתן לתת הערכה לאיכות האומדן המיטבי על פיו. אם האומדן הטוב ביותר שמצאנו נותן R2 = 1 אזי לא ייתכן בכלל אומדן טוב ממנו. אם R2 = 0 אזי לא ייתכן אומדן רע ממנו.

דוגמה ב'

כאשר מנסים לאמוד גודל מסוים על פי תוצאות מדידה כלשהן, , גורס עקרון הריבועים הפחותים כי האומדן הטוב ביותר, x, הוא הערך שעבורו סכום ריבועי הסטיות של המדידות מ-x יהיה מינימלי. במקרה כללי יותר, מנסים להתאים פונקציה מסוימת לסדרה של מדידות . כאן הוא אוסף של פרמטרים.

דוגמה לכך היא ניסיון מציאת קשר בין הזרם החשמלי והמתח על נגד, בודקים בסדרה של מדידות של המתח בהתאם לשינוי בזרם: . אם מניחים שהקשר בין המתח והזרם הוא לפי חוק אוהם, , הבעיה היא מציאת הערך של שייתן את ההתאמה המיטבית לאוסף המדידות.

בניסוח מתמטי, נדרש למצוא את שיביא את הסכום לערכו המינימלי.

ראו גם

קישורים חיצוניים

הערות שוליים