לדלג לתוכן

חפירת נתונים

מתוך המכלול, האנציקלופדיה היהודית
תוצאה של השוואה הומוריסטית, correlation between the number of letters in Scripps National Spelling Bee's winning word and the number of people in the United States killed by venomous spiders

חפירת נתונים או שידוד נתוניםאנגלית: data dredging או p-value hacking) היא שימוש לרעה בניתוח נתונים כדי לזהות דפוסים שניתן להציג כמשמעותיים סטטיסטית, על מנת לבסס את התוצאה הרצויה, בדרך כלל על ידי שינוי ערך ה-p שהוא ערך המובהקות. הדבר יכול לקרות כאשר מבצע הבדיקה או המחקר מנסה להגיע לתוצאה מובהקת, ובכך לאשש את השערתו.

ערך-p (p-value) או עֵרֶךְ הַמֻבְהָקוּת הוא פונקציה בסטטיסטיקה של תוצאות מדגם (סטטיסטי), המשתמשת בדרך כלל לבדיקת השערות. מובהקות או רמת מובהקות היא הסיכוי שבעת ביצוע מבחן סטטיסטי לבדיקת השערות נדחה את השערת האפס על אף שהיא נכונה. "רמת סמך" היא המשלים של רמת המובהקות (לדוגמה אם רמת המובהקות היא 5% אז רמת הסמך היא 95%). במילים אחרות ערך ה-p (כאמור רמת המובהקות) היא הסיכוי לקבלת אותה תוצאה בתנאים "רגילים" ללא הנושא הנבדק. את רמת מובהקות מקובל לייצג באות היוונית α (אלפא). במחקרים בדרך כלל מקובל לקבוע את רמת המובהקות כ-5% = α או 1% = α

דוגמה עקרונית להמחשת ערך ה-p : מבוצע מחקר על הקשר בין תרופה חדשה לכמות החולים שנרפאו. המחקר מבוצע על קבוצה של 200 חולים דומים. מתוך הקבוצה זו 100 מהחולים השתמשו בתרופה החדשה ו-100 אחרים בקבוצת הביקורת לא קבלו את התרופה. השערת המחקר היא התרופה מרפאת החולה. השערת האפס שהיא שאין לתרופה השפעה, כלומר שמספר החולים שירפאו מתוך אלו שלקחו אותה יהיה שווה לכמות החולים שנרפאו, ללא קבלת טיפול כלשהו. בסיום המחקר נאספו התוצאות. ערך p הוא התשובה לשאלה: אם לתרופה אין השפעה על החולים (כלומר: השערת האפס נכונה), מה ההסתברות לקבל תוצאות "חריגות" לפחות כמו אלה שאכן התקבלו במחקר?

בתוצאות המחקר: 20% נרפאו בקבוצת הביקורת, ללא קבלת תרופה. על כן, בקבוצת הבדיקה מתוך 100 חולים היינו מצפים שכ-20% מהחולים יירפאו, שהם 20 נבדקים, ללא קשר לתרופה. בסיום המחקר בקבוצת הנבדקים התברר ש 40 חולים אכן נרפאו. כדי לאשר או להפריך את ההנחה שהתרופה אכן עובדת, ניתן לחשב את ההסתברות לכך שבמדגם אקראי של 100 חולים דומים, ירפאו 40 חולים. הסיכוי הזה נקרא ערך-p. במקרה זה בהינתן התפלגות נורמלית הסיכוי לקבל תוצא זו גדולה מ-5%. כלומר ניתן להגיד במקרה זה שתוצאות הניסוי לא מובהקות מספיק כדי לקבוע התרופה אכן מרפאת, לא ניתן לדחות את השערת האפס.

p-value hacking ניתן לבצע במספר דרכים, בדרך כלל על ידי בדיקת השערות מרובות במקבץ נתונים יחיד, או על ידי חיפוש אחר שילובים של משתנים שעשויים להראות מתאם.

שיטות

  1. לאחר ניתוח ראשונים של הנתונים, ניתן לגרוע או למחוק חלק בטענה של תצפיות לא מתאימות \ שגויות \ חריגות שנגרמו כתוצאה משיטת איסוף הנתונים. במקרים מסוימים ניתן לגרוע או להוסיף עד לקבלת רמת המובהקות הרצויה.
  2. בחירה סלקטיבית של הנתונים (באנגלית: "cherry picking") ולאחר מכן ביצוע מדדים סטטיסטיים הרצויים.
  3. איסוף וניתוח נתונים בכל מיני שיטות סטטיסטיות מקדימות, לפני ביצוע בדיקה סופית של מובהקות, עד שתתקבל ערך ה-P הרצוי.
  4. ביצוע מספר בדיקות קטן ופרסום רק אם מתקבלת תוצאה הרצויה. ואם לא מתקבלת תוצאה בטווח המובהקות הרצוי - לאסוף עוד נתונים עד שהתוצאה תהפוך למובהקת (ניתן לבצע במקרים מסוימים).
  5. על אותו בסיס נתונים לבדוק הרבה השערות, ככל שבודקים יותר השערות, עולה הסיכוי שלפחות אחת מהן תהיה מובהקת.
  6. בשלב איסוף הנתונים, ניתן לאסוף נתונים על משתנים רבים מאד, גם כאלו שאינם קשורים להשערה.
  7. בשלב ניתוח התוצאות, אם משתמשים במודל רגרסיה אפשר להוסיף למודל משתנים תלויים (Covariate) או להסיר אותם, עד שמתקבלת תוצאה מובהקת.

על אותם הנתונים אפשר לבצע מספר שיטות ביחד או לחוד.

חפירת נתונים43086087Q5227277