משבר השחזור

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
Crystal Clear app help index.svg
ערך שניתן לשפר את מקורותיו
בערך זה יש מקורות, אבל ניתן וכדאי לשפר את המקורות שכבר קיימים בו, וכן מקור יחיד ללא פירוט על מה המקור עצמו מבוסס.

אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.

ערך שניתן לשפר את מקורותיו
בערך זה יש מקורות, אבל ניתן וכדאי לשפר את המקורות שכבר קיימים בו, וכן מקור יחיד ללא פירוט על מה המקור עצמו מבוסס.

אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.

משבר השחזור (replication crisis. נקרא גם replicability crisis או reproducibility crisis) הוא משבר מתמשך במדעי החברה, שבמסגרתו התברר שמחקרים מצוטטים רבים אינם ניתנים לשחזור. הואיל והאפשרות לשחזר ניסוי היא הדרך לאשש את נכונות מסקנותיו, המדובר במשבר המערער רבות מההנחות המקובלות במדעי החברה. על-פי רוב, נהוג לייחס את המשבר לתחומי הפסיכולוגיה והרפואה, שם ניסיונות לשחזור ניסויים קלאסיים הסתיימו בקול ענות חלושה. ממצאים מראים שגם מדעי החברה והטבע האחרים מושפעים ממשבר זה.

המונח משבר השחזור הוטבע בתחילת העשור השני של המאה ה-21, כחלק מעליית המודעות לבעיה.

רקע

שחזור משמעו לבצע שוב את המחקר. במחקר המשוחזר חוזרים על שאלת המחקר, המתודולוגיה (השיטה לביצוע המחקר) ואופן ניתוח התוצאות כמו במחקר המקורי. השיטה המדעית מבוססת על ניסיון להפריך הסבר מוצע. תוצאות הניסוי אינן "מוכיחות" את התאוריה שבבסיס הניסוי, אלא מאששות את אמיתותו. על-מנת למנוע השפעה של מקריות או גורמים זרים, יש צורך שהניסוי יהיה ניתן לשחזור.

השחזור נחשב ל"אבן היסוד של המדע". המדען הסביבתי סטפן שמידט כתב ב-2009 תיאור של השחזור:

Replication is one of the central issues in any empirical science. To confirm results or hypotheses by a repetition procedure is at the basis of any scientific conception. A replication experiment to demonstrate that the same findings can be obtained in any other place by any other researcher is conceived as an operationalization of objectivity. It is the proof that the experiment reflects knowledge that can be separated from the specific circumstances (such as time, place, or persons) under which it was gained.

אין כיום קונצנזוס על ההגדרה של שחזור ומונחים דומים. ישנם מספר סוגים של שחזורים שזוהו:

  1. שחזור מדויק/ישיר, שם משחזרים את הניסוי בתנאים דומים ככל האפשר.
  2. שחזור סיסטמטי, בו משחזרים את הליך הניסוי, אך עם שינויים מבוקרים.
  3. שחזור מושגי, בו בוחנים את ההיפותזה אך תוך שימוש בהליך בדיקה אחר. השחזור המושגי מאפשר לבדוק את הכלליות והוורסטיליות של התוצאה או ההיפותזה.

אין דרך חד-משמעית לקבוע האם שחזור הצליח או לא, ולמעשה גם בפרויקט הרפליקציות השתמשו במספר מדדים שונים. השאלה הזו טומנת בחובה שאלה חשובה נוספת: האם בכלל ניתן לשחזר? ברור שלא ניתן לקיים בדיוק את אותו מחקר פעמיים, בשל סיבות רבות החל בזה שאי אפשר לחזור על אותה דגימה בדיוק, יהיו אלו אנשים או עכברים.

אף אם המחקר לא הצליח להשתחזר, לא ניתן לקבוע באורח חד-משמעי שהממצא שלו היה שגוי, שכן ייתכן שממצאיו נכונים אך השחזור לא הצליח לזהותם. מבין הסיבות לכך שמחקר לא ישתחזר, ניתן למנות שגיאה במערך המחקרי המקורי, בהוצאתו לפועל או בניתוח התוצאות שהתקבלו.

הגורמים למשבר

משבר השחזור מעורר עניין רב משתי סיבות מרכזיות. ראשית, המשבר מערער מסקנות רבות במדעי החברה, שהפכו להנחות עבודה עבור חוקרים רבים. שנית, המשבר תומך בחשש שישנה בעיה מובנית באופן שבו מתנהלים מחקרים במדעי החברה.

אחד הגורמים למשבר טמון בכלים הסטטיסטיים ובאופן העבודה איתם. נוכח מורכבותו של תחום הסטטיסטיקה, חוקרים רבים טועים בשימוש בו. בין הטעויות הנפוצות ניתן למנות שימוש לא נכון בערך p (ערך המובהקות), מדגמים קטנים מדי, אופן ההתמודדות עם outliers (נתונים חריגים), ודיווח סלקטיבי על הממצאים או על התנאים ששיחקו תפקיד במהלך המחקר. אלו ואחרים מובילים לאחוז גבוה של תוצאות חיוביות כוזבות (false positive) – המעידות על גילוי אפקט שלא קיים במציאות.

אחד השימושים הלקויים בסטטיסטיקה זכה לכינוי p-hacking, שמשמעותו מניפולציה של המידע או של הניתוח שמבוצע, על מנת לקבל ערך p מובהק (ערך סטטיסטי המצביע על כך שאכן נמצא אפקט במחקר). באופן הזה, ניתן לבחור מבין מגוון שיטות את הניתוח הסטטיסטי היחיד שמראה תוצאות מובהקות עבור הנתונים. ערך הסף הנהוג במדעי החברה שקובע מתי ערך p נחשב מובהק הוא 0.05. ערך זה משקף את הסיכוי לטעות בטעות מסוג אלפא שהיא כשאנחנו חושבים שגילינו אפקט שלא קיים במציאות. לכן, אם הנתונים מראים על אפקט מובהק עם ערך p הקטן מ-0.05, נוכל להסיק ברמת ביטחון של 95% שהאפקט אכן קיים.

ואולם, במצב של השוואות מרובות, גדל הסיכוי לקבל p-value מובהק באחד הניתוחים, אך הדבר חדל מלהצביע על ההסתברות per se. מנגנון ההשוואות המרובות מאפשר לחוקרים לבצע מספר ניתוחים סטטיסטיים, אך לדווח רק על אלה שהתקבלה בהם תוצאה מובהקת. אפקט ההשוואות המרובות עלול להתרחש אף בהיעדר זדון או רשלנות, הואיל ובכתבי העת המדעיים מתפרסמים רק המחקרים שבהם התקבלו תוצאות מובהקות – וכך לקהילה המדעית אין אפשרות לדעת על קיומם של מחקרים דומים שלא מצאו את האפקט הנחקר.

גורם נוסף למשבר נעוץ במבנה התמריצים של עולם המחקר המדעי. מצפים מהחוקרים לספק תוצאות רבות ומחדשות בתדירות גבוהה, והתגמול במחקר מגיע על פרסום מאמרים. לכן לפרסום מאמר מתלווים אינטרסים אישיים כמו רצון להתקדם בתוך האקדמיה, לקבל תקציב למחקר או יוקרה. הדבר אף בא לידי ביטוי בעגה הפופולרית לקהילה המדעית, הכוללת ביטויים כגון "פרסם או היעלם", שמשמעו שפרסום ממצאים הוא קריטי על מנת להצליח כחוקר. מצד שני, קיים תגמול מועט על פרסום ממצאים הסותרים את התיאוריה הרווחת.

מבנה תמריצים זה פוגע מאוד באפשרות למצוא ממצאים שיסתרו את ההיפותזה המקורית, גם אם היא שגויה.

הקושי לאתגר מחקרים שגויים

מקובל לחשוב שישנו קושי לקרוא תיגר על מידע שהתבסס בתוך עולם המחקר, שכן באופן כללי נהוג להעריך את מהימנותו של מחקר על פי כמות הציטוטים שיש לו. אף שזהו הנוהג המקובל, מחקר שנערך בשנים האחרונות מצא כי גם מאמרים על מחקרים שלא הצליחו לשחזר את ממצאיהם (בפרויקט הרפליקציות לדוגמה) ממשיכים להיות מצוטטים. במחקר מסוים אף נמצא כי מאמרים אלו מצוטטים יותר ממחקרים שהצליחו לשחזר את ממצאיהם. נראה כי התופעה חזקה יותר כשמדובר במאמרים שממצאיהם מחדשים או מפתיעים במיוחד. סיבה נוספת שעשויה לגרום לכך היא שרק כ-12% מהחוקרים, שהממצאים שלהם לא שוחזרו, מציינים זאת במאמריהם.

ביקורת

יש המבקרים את מידת הרלוונטיות של בדיקות פרויקט השחזור, ובעקבות זאת נעשו עוד כמה פרויקטי שחזור שהגיעו לאחוזי שחזור הנעים בין 30% ל-85%.

ניסיונות להתמודד עם המשבר

תהליך "רישום מראש" (pre-registration) שבו החוקר מצהיר בטרם ביצוע המחקר מה ההיפותזה שלו, מהו מהלך הניסוי ואף באיזה אופן ינותחו התוצאות. רק לאחר מכן המחקר יוצא לפועל. בנוסף, יש מגזינים המתחייבים לפרסם את המחקר בין אם התקבל אפקט או לא, ואף קיימים כתבי עת שמתחייבים לפרסם אחוז מסוים של מחקרי רפליקציה, שכל מהותם שחזור של מחקר אחר. בהקשר זה, שיטת התגמול המחקרית טרם השתנתה בצורה משמעותית אם כי נראה שהיא בתהליכי שינוי. עד כה, לרוב, חוקרים מתוגמלים יותר מדי על פי תוצאות המחקר ופחות מדי על פי טיבו של המערך המחקרי שמתחשב בשאלה הנשאלת במחקר, במורכבות המדידה ובאיכות הביצוע.

ב-2017 חוקרים העלו הצעה להזיז את ערך p מ-0.05 ל-0.005, וכך להקטין משמעותית את אחוז התוצאות החיוביות הכוזבות (false positive). כמו כן, ייתכן שהמעבר לסטטיסטיקה בייסיאנית יפתור בעיות סטטיסטיות מהותיות. הועלו גם הצעות להכניס ביצוע רפליקציות לקורפוס הלימוד של המחקר המדעי.

הערות שוליים

  1. ^ Ioannidis JP (באוגוסט 2005). "Why most published research findings are false". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722. {{cite journal}}: (עזרה)
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0