שונות

מתוך המכלול, האנציקלופדיה היהודית
גרסה מ־22:50, 5 ביולי 2017 מאת Davidnead (שיחה | תרומות) (גרסה אחת של הדף wikipedia:he:שונות יובאה)
קפיצה לניווט קפיצה לחיפוש

בתורת ההסתברות וסטטיסטיקה, שונות (Variance) היא מדד לפיזור ערכים באוכלוסייה הנתונה ביחס לתוחלת שלה. באופן אינטואיטיבי, השונות היא גודל חיובי התלוי במרחק הממוצע של כל ערך מממוצע כל הערכים. ערך שונות גבוה מעיד על פיזור רחב של המשתנים, ערך נמוך מעיד על פיזור צר. שונות השווה זהותית לאפס משמעה שכל ערכי האוכלוסייה זהים ומרוכזים בנקודה אחת. השונות היא מדד למרחק ולכן תקבל תמיד ערך חיובי. יחידות השונות הן ריבוע יחידות האוכלוסייה דבר המקשה על השוואת גדלים, לכן הוצג המושג סטיית תקן השווה לשורש השונות ומציג את הפיזור הממוצע ביחידות המקוריות. השונות מוגדרת עבור משתנה רציף ועבור משתנה בדיד, וניתן לחשב אותה באופן תאורטי מפונקציית ההסתברות או לחשב אותה ביחס לאוכלוסייה או למדגם נתונים. מושג זה הוצג לראשונה על ידי רונלד פישר בשנת 1918.

הגדרה

השונות של המשתנה המקרי  X, בדיד או רציף, מוגדרת כתוחלת של ריבוע המרחק מן המשתנה לתוחלת שלו:  var(X)=𝔼((Xμ)2)=𝔼(X2)μ2, כאשר μ=𝔼(X) היא התוחלת של המשתנה. כל זאת בתנאי שהאינטגרלים או הסכומים המעורבים בחישוב מתכנסים; יש התפלגויות (כגון התפלגות קושי) שהתוחלת שלהן אינה מוגדרת; וכאלה שהתוחלת שלהן מוגדרת, אבל השונות אינה מוגדרת.

השונות שווה לשונות המשותפת של המשתנה עם עצמו: Var(X)=Cov(X,X).

חישוב שונות

משתנה מקרי בדיד

בהינתן פונקציית הסתברות בדידה x1 ↦ p1, ..., xn ↦ pn ניתן לחשב את ערך השונות לפי הנוסחה

Var(X)=i=1npi(xiμ)2

כאשר μ הוא ערך התוחלת

μ=i=1npixi

מדגם סופי

בהינתן אוכלוסייה בגודל N נוכל לחשב את השונות על ידי לקיחת הסתברות אחידה:

Var(X)=1Ni=1N(xiμ)2=(1Ni=1Nxi2)μ2

כאשר

μ=1Ni=1Nxi הוא ערך התוחלת.

משתנה מקרי רציף

בהינתן פונקציית הסתברות רציפה, חישוב השונות נתון על ידי

Var(X)=σ2=(xμ)2f(x)dx=x2f(x)dxμ2

כאשר μ הוא ערך התוחלת

μ=xf(x)dx

כאשר האינטגרל מחושב על פני כל מקור פונקציית ההסתברות, במקרה של תומך חסום על פני כל ערכי התומך.

דוגמאות

התפלגות נורמלית

ההתפלגות נורמלית עם הפרמטרים μ ו-σ היא התפלגות רציפה עבורה פונקציית צפיפות ההסתברות נתונה על ידי:

f(x)=12πσ2e(xμ)22σ2,

כאשר μ הוא התוחלת, ערך השונות נתון על ידי:

Var(X)=(xμ)22πσ2e(xμ)22σ2dx=σ2.

חישוב אינטגרל זה על הפונקציה המכונה גאוסיין ניתן לביצוע באמצעות אינטגרלים כפולים ומעבר לקואורינטות פולריות. להתפלגות הנורמלית תפקיד מכריע בעולם ההסתברות עקב משפט הגבול המרכזי.

התפלגות מעריכית

ההתפלגות מעריכית עם הפרמטר λ ו-σ היא התפלגות רציפה עבורה תומך חצי אינסופי (הישר האי שלילי) פונקציית צפיפות ההסתברות נתונה על ידי:

f(x)=λeλx,

ערך התוחלת שלה נתון על ידי μ = λ−1. ערך השונות נתון על ידי:

Var(X)=0(xλ1)2λeλxdx=λ2.

לכן עבור משתנה מקרי המתפלג באופן מעריכי σ2 = μ2.

התפלגות פואסון

התפלגות פואסון עם הפרמטר λ היא התפלגות בדידה עבור אינדקס k מספר טבעי א-שלילי, פונקציית הסתברות עבור k נתונה על ידי:

p(k)=λkk!eλ

ערך התוחלת הוא μ = λ. ערך השונות נתון על ידי:

Var(X)=k=0λkk!eλ(kλ)2=λ

לכן עבור משתנה מקרי המתפלג פואסון σ2 = μ.

התפלגות בינום

התפלגות פואסון עם הפרמטרים n וp היא התפלגות בדידה עבור אינדקס k מספר טבעי א-שלילי, פונקציית הסתברות עבור k נתונה על ידי:

p(k)=(nk)pk(1p)nk

ערך התוחלת הוא μ = np. ערך השונות נתון על ידי::

Var(X)=k=0n(nk)pk(1p)nk(knp)2=np(1p)

הטלת מטבע

התפלגות בינומית עם מקדם p=0.5 מתארת את ההסתברות לקבלת k עץ מתוך n הטלות. לכן ערך התוחלת של כמות העצים שהתקבלו נתונה על ידי: n2, וערך השונות על ידי: n4.

קובייה הוגנת

ניתן למדל הטלת קובייה הוגנת בעלת 6 צדדים על ידי משתנה מקרי בדיד המקבל ערכים בין 1 ל-6, בהסתברות שווה והיא 16. ערך התוחלת הוא: (1 + 2 + 3 + 4 + 5 + 6)/6 = 3.5. ולכן נחשב את השונות להיות

i=1616(i3.5)2=16i=16(i3.5)2=16((2.5)2+(1.5)2+(0.5)2+0.52+1.52+2.52)=1617.50=35122.92

במקרה הכללי- משתנה מקרי X בעל התפלגות שווה 1n אשר מקבל את הערכים הטבעיים בין 1 ל-n. נחשב את השונות על ידי:

Var(X)=E(X2)(E(X))2=1ni=1ni2(1ni=1ni)2=16(n+1)(2n+1)14(n+1)2=n2112

תכונות השונות

  • השונות תמיד אי שלילית var(X)0
  • שונות של משתנה מקרי שווה לאפס אם ורק אם המשתנה המקרי מקבל ערך קבוע בהסתברות 1
  • השונות של טרנספורמציה לינארית על המשתנה המקרי  X מחושבת באופן הבא:
var(aX+b)=a2var(X)

 a,b - קבועים ממשיים.

  • השונות של סכום משתנים מקריים X,Y היא:

var(X+Y)=var(X)+2cov(X,Y)+var(Y)

כאשר cov היא השונות המשותפת של המשתנים X,Y, יש לציין כי השונות המשותפת של שני משתנים מקריים שווה לאפס במקרה ואין תלות בין המשתנים. ניתן להרחיב את התכונה לחישוב שונות סכום משתנים מקריים כך:

Var(i=1nXi)=i=1nj=1nCov(Xi,Xj)=i=1nVar(Xi)+21i<jnCov(Xi,Xj)

  • אם X,Y משתנים מקריים, והשונות של Y סופית, אפשר לפרק את השונות של X באופן הבא:

 var(X)=𝔼(var(X|Y))+var(𝔼(X|Y)) (ראו גם משפט השונות השלמה).

שונות האוכלוסייה ושונות המדגם

שונות האוכלוסייה

עבור אוכלוסייה סופית (שהתפלגותה אינה ידועה) ניתן לחשב את השונות בעזרת הנוסחה:

σ2=i=1N(xix)2N

x - ממוצע האוכלוסייה.
 N - מספר האיברים באוכלוסייה.

נוסחה שימושית לחישוב שונות האוכלוסייה:

σ2=i=1Nxi2N(i=1NxiN)2=i=1Nxi2N*x2N

שונות המדגם

בהינתן מדגם מקרי פשוט (y1,,yN) אם נסתכל על המדגם עצמו כעל אוכלוסייה בפני עצמה, אז שונות המדגם נתונה על ידי הנוסחה: s2=1Ni=1N(yiy)2 .

שונות המדגם היא גם אומד מומנטים ואומד נראות מרבית עבור שונות האוכלוסייה.

אומד חסר הטיה לשונות האוכלוסייה

כאשר נתון מדגם מקרי פשוט (y1,,yN) ניתן לאמוד את שונות האוכלוסייה על ידי הנוסחה: s2=1N1i=1N(yiy)2 ; בתנאים רגילים, זהו אומד בלתי מוטה. אם הנתונים מעוגלים בזמן המדידה, יש להפעיל את תיקון שפרד. עקב היותו אומד חסר הטיה, אומד זה הוא המקובל בשימוש בתחום הסטטיסטיקה.

נוסחה שימושית אחרת לחישוב האומד לשונות: s2=i=1Nxi2(i=1Nxi)2/NN1.

ראו גם