סטטיסטיקה חסינה

מתוך המכלול, האנציקלופדיה היהודית
גרסה מ־04:19, 7 ביוני 2020 מאת 120אביאל (שיחה | תרומות) (←‏דוגמאות)
(הבדל) → הגרסה הקודמת | הגרסה האחרונה (הבדל) | הגרסה הבאה ← (הבדל)
קפיצה לניווט קפיצה לחיפוש

סטטיסטיקה חסינה או "סטטיסטיקה רוֹבּוּסטית" (Robust statistics) היא טכניקה סטטיסטית שביצועיה טובים עבור נתונים מטווח רחב של התפלגויות. יתרונה בולט במיוחד עבור התפלגויות שאינן נורמליות. שיטות הסטטיסטיקה החסינות מתבססות יותר על החציון מאשר על הממוצע ומשתמשות יותר בערכים שבמרכז המדגם מאשר בערכים שבקצותיו.

הסטטיסטיקה החסינה מבקשת לספק שיטות המחקות את השיטות המקובלות בסטטיסטיקה, אך פחות מושפעות מנתונים קיצוניים. שיטות ההערכה הקלאסיות בסטטיסטיקה נשענות בחוזקה על השערות שלעיתים קרובות אין להן אחיזה במציאות. הסטטיסטיקה החסינה מוגדרת להיות עמידה מפני טעויות הנובעות מסטייה מההשערות. זה אומר שגם אם ההשערות מתקיימות רק בקירוב, המדד הסטטיסטי החסין יספק יעילות והטיה מתקבלות על הדעת, ואסימפטוטית (בשאיפה לאינסוף) יהיה חסר הטיה. שימוש נפוץ בסטטיסטיקה חסינה הוא להתמודדות עם תופעת הזנב הארוך.

מדידת חסינות

הכלים העיקריים המשמשים לתיאור ומדידת חסינות הם נקודת השבירה, פונקציית ההשפעה ועקומת הרגישות.

נקודת השבירה של מדד סטטיסטי היא שיעור התצפיות הקטן ביותר ששינוי בלתי מוגבל בהן יגרום לשינוי לא חסום בערך המדד. לדוגמה, בהינתן אוסף של n מספרים ניתן להשתמש בנוסחה: על מנת לחשב את הממוצע. הממוצע לכן הוא בעל נקודת שבירה של 0 מכיוון שניתן לשנות אותו באופן בלתי חסום על ידי שינוי של כל אחד מהערכים .

פונקציית ההשפעה בודקת את תלות המדד הסטטיסטי בערך נקודה בודדת במדגם.

עקומת הרגישות בודקת כיצד המדד הסטטיסטי מושפע משינויים קלים בפיזור הערכים במדגם.

דוגמאות

  • חציון הוא מדד חסין, בעל נקודת שבירה של 50%, בעוד לממוצע נקודת שבירה של 0% והוא איננו מדד חסין.
  • טווח בין-רבעוני הוא מדד חסין של סטייה סטטיסטית, בעוד שטווח איננו.
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0