מבחן קוקראן-ארמיטאז'

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

מבחן מבחן קוקראן-ארמיטאז' הוא וריאציה של מבחן חי-בריבוע המתאימה להערכת מגמת הקשר (trend) בין שני משתנים איכותיים, שאחד מהם נמדד בסולם מדידה סודר, והשני מקבל שני ערכים בלבד. בניגוד למבחן חי בריבוע, מבחן זה לוקח בחשבון את העובדה שקיים סדר בין ערכי המשתנה הסודר. מבחן זה הוא מקרה פרטי של מבחן M בריבוע.

מוטיבציה

כשמשתנה נמדד בסולם סודר וערכיו מקודדים במספרים, אין משמעות לערכים המספריים האלה. לדוגמה, משתנה המתאר את המצב הסוציואקונומי של משפחה יכול לקבל את הערכים המילוליים "נמוך", "בינוני" או "גבוה", וניתן לקודד את הערכים המילוליים על ידי הערכים 1, 2, 3 או 4, 18, 21. על פי הגדרת סולם הסדר, כל שלושת הקידודים האלה שקולים.

עם זאת, ייתכן וניתן לקודד מחדש את הערכים של משתנה הסדר בערכים כמותיים. לדוגמה, המשתנה עשירוני שכר מקבל את הערכים 1 עד 10, וזהו משתנה סדר. אבל אפשר להחליף כל דרגה בסולם זה בשכר החציוני של העשירון, ובכך "לשדרג" אותו למשתנה כמותי. שדרוג זה יאפשר הפעלת שיטות סטטיסטיות המתאימות למשתנים כמותיים.

הגדרה

יהיו הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} ו-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} שני משתנים מקריים איכותיים כאשר המשתנה מקבל שני ערכים בלבד והמשתנה נמדד בסולם סדר. נניח ללא הגבלת הכלליות כי המשתנה מקבל את הערכים ו- , וכי המשתנה מקבל את הערכים כאשר .

נתבונן במדגם בגודל מתוך אוכלוסייה כלשהי, ונסמן ב-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle n_{ij}} את מספר הפרטים במדגם עבורם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X=i} ו-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y=j} . נאמר כי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle n_{ij}} היא השכיחות של התצפיות במדגם עבורן הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X=i} ו-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y=j} . בטבלה זו יש הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 2} שורות ו- עמודות, כאשר בהצטלבות השורה ה-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle i} והעמודה ה-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle j} נמצא המספר הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle n_{ij}} נקראת לוח השכיחות של המשתנים הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} ו-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} . לוח השכיחות הוא למעשה הנתונים שיש לנתח.

כן נסמן ב-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle n_{i.}} את מספר הפרטים במדגם עבורם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X=i} , וב- נסמן את מספר הפרטים במדגם עבורם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y=j} .

מבחן קוקראן-ארמיטאז', הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle T} , מוגדר על ידי:

הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle T=\sum_{j=1}^J w_j (n_{1j} \cdot n_{2.} - n_{2j} \cdot n_{1.})}

כאשר הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle w_j} הינם ציונים מספריים עבור ערכי המשתנה הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} , המקייימים הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle w_1 \le w_2 \le ... \le w_J} . ציונים אלה העשויים להיקבע על ידי המשתמש על סמך ידע קודם אודות המשתנה הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} , או על סמך השערה ספציפית על הקשר בין המשתנים. לדוגמה, אם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} מקבל את הערכים הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 1,2,3} , ואנו מצפים כי השכיחויות של הערכים הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 1} ו-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 2} יהיו דומות (עבור כל אחד משני הערכים של , אך השכיחויות של הערך הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 3} יהיו שונות, משקלות מתאימים יכולים להיות הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle w_1=1, \ w_2=1, \ w_3=0} . אם לעומת זאת אנו מצפים כי השכיחויות של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} עבור הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X=1} יעלו כאשר הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle j} גדל, משקלות מתאימים יכולים להיות הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle w_1=1, \ w_2=2, \ w_3=3} . לסקירה נרחבת על אופן בחירת הציונים עיינו בספרו של אלן אגרסטי[1].

השערת האפס של המבחן היא ההשערה כי לא קיימת מגמה כלשהי בשכיחויות של ערכי המשתנה הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} . ניתן לבטא השערה זו באופן הבא:

תחת השערת האפס ניתן להראות כי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle E(T)=0} וכי השונות של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle T} שווה ל-:

הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Var(T)= \frac{n_{1.} n_{2.}}{n} [ \sum_{j=1}^J w_j^2 n_{.j} (n-n_{.j}) - 2 \sum_{j=1}^{J-1} \sum_{k=j+1}^J w_j w_k n_{.j} n_{.k}]}

כאשר גודל המדגם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle n} מספיק גדול, אזי תחת השערת האפס ל-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle T} יש בקירוב התפלגות נורמלית: הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \frac{T}{Var(T)} \sim \ N(0,1)} .

דוגמה

הדוגמה הבאה מבוססת על הדוגמה שהובאה בספרו של אגרסטי שהוזכר קודם.

במחקר תצפיתי פרוספקטיבי, נלקח מדגם של כ-32000 נשים בשלבים המוקדמים של הריון. כל אישה ענתה על שאלון שתיאר את הרגלי שתיית האלכוהול שלה בשלושת החודשים הראשונים של ההריון, ועל סמך שאלונים אלה חושב ממוצע מנות האלכוהול ליום ("drinks") של כל אישה. נתונים אלה קובצו לקטגוריות שיצרו משתנה איכותי בסולם סדר. בסיום ההריון ולאחר הלידה, נרשם האם התינוק שנולד סובל ממום מולד.

הנתונים מוצגים בטבלה הבאה:

צריכת אלכוהול יומית
מום בלידה לא שתתה פחות ממנה אחת בין מנה אחת לשתיים שלוש מנות או יותר סך הכל
לא 17066 14464 788 163 32481
כן 48 38 5 2 93
סך הכל 17114 14502 793 165 32574


נבחן 3 אפשרויות למתן ציונים למשתנה צריכת האלכוהול היומית:

  • ציון ליניארי: הציונים יהיו המספרים 1 עד 4. זוהי גישה נאיבית, המניחה כי ההבדלים בין כל הערכים של משתנה זה שווים, וכך ה-"שדרוג" הוא למשתנה הנמדד בסולם רווח.
  • אמצע הטווח: לכל ערך לש המשתנה נבחר את הממצע בין הגבול התחתון של הערך והגבול העליון שלו. הציון של "לא שתתה" יהיה לכן 0, הציון של "פחות ממנה אחת" יהיה 0.5, שהוא הממוצע של 0 ו-1. באופן דומה הציון של "בין מנה אחת לשתיים יהיה 1.5. לקטגוריה העליונה "שלוש מנות או יותר" אין גבול עליון, ולכן ניאלץ לקבוע עבורנ ציון שרירותי, למשל 5. שימו לב כי כאן המרווחים בין ציוני הערכים אינם שווים
  • דרגה ממוצעת: נדרג את ערכי המשתנה בדומה לדירוג שנעשה במבחן ספירמן, ונקבע את הדרגה הממוצעת כציון לערך האיכותי. לדוגמה, הדרגות של התצפיות בערך "לא שתתה" הן 1 עד 17114, ולכן הדרגה הממוצעת היא הממוצע של 1 ו-17114, כלומר 8557.5. באופן דומה, הדרגות של הערך "פחות ממנה אחת" הן 17115 עד 31616, ולכן הדרגה הממוצעת של ערך זה היא הממוצע של ו-31616, כלומר 24365.5.

בתוכנת R ניתן לבצע את מבחן קוקראן-ארמיטאג' בעזרת הפונקציה prop.trend.test מחבילת stat. נגדיר תחילה את טבלת הנתונים:

> dugma=matrix(c(17066, 48, 14464, 38, 788, 5, 163, 2), nrow=2)
> dugma
      [,1]  [,2] [,3] [,4]
[1,] 17066 14464  788  163
[2,]    48    38    5    2
>

למעשה, כדי לבצע את המבחן הפונקציה צריכה לקבל את אחת השורות בטבלה: "לא קיים מום בלידה" (absent) או "קיים מום בלידה" (present). כן יש להזין לפונקציה את שורת סך הכל.

> absent=dugma[1,]
> absent
[1] 17066 14464   788   163
> present=dugma[2,]
> present
[1] 48 38  5  2
> total=apply(dugma,2,sum)
> total
[1] 17114 14502   793   165
>

הפרמטר השלישי שיש להזין לפונקציה הוא ציוני השורות:

> # scores
> # 1) linear scores
> linear_scores=1:4
> linear_scores
[1] 1 2 3 4
> # midrange scores
> midrange_scores=c(0, 0.5, 1.5, 5)
> midrange_scores
[1] 0.0 0.5 1.5 5.0
>
> # midrank scores
> nj=apply(dugma,2,sum)
> vstart=c(1, cumsum(nj)[1:3]+1)
> vend=cumsum(nj)
> midrank_scores=(vstart+vend)/2
> midrank_scores
[1]  8557.5 24365.5 32013.0 32492.0
>

כעת נוכל לבצע את המבחן. עבור הציונים הליניאריים נבצע אותו פעמיים: פעם אחת עבור השורה/משתנה absent, ופעם עבור השורה. משתנה present:

> prop.trend.test(absent, total, linear_scores)

	Chi-squared Test for Trend in Proportions

data:  absent out of total ,
 using scores: 1 2 3 4
X-squared = 1.4516, df = 1, p-value = 0.2283

> prop.trend.test(present, total, linear_scores)

	Chi-squared Test for Trend in Proportions

data:  present out of total ,
 using scores: 1 2 3 4
X-squared = 1.4516, df = 1, p-value = 0.2283

>

כצפוי מתקבלת אותה התוצאה. שימו לב שהפונקציה מסתמכת על התפלגות חי בריבוע לחישוב ערך ה-p. זאת מכיוון שאם ל-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle T} יש בקירוב התפלגות נורמלית סטנדרטית, הרי של-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle T^2} יש בקירוב התפלגות חי בריבוע עם דרגת חופש אחת.

נבצע את המבחן גם עבור ציוני אמצע הטווח וציוני הדרגה הממוצעת:

> prop.trend.test(present, total, midrange_scores)

	Chi-squared Test for Trend in Proportions

data:  present out of total ,
 using scores: 0 0.5 1.5 5
X-squared = 5.1389, df = 1, p-value = 0.0234

> prop.trend.test(present, total, midrank_scores)

	Chi-squared Test for Trend in Proportions

data:  present out of total ,
 using scores: 8557.5 24365.5 32013 32492
X-squared = 0.35077, df = 1, p-value = 0.5537

>

דוגמה זו ממחישה את הרגישות של המבחן לבחירת ציוני הדרגות. הציונים הליניאריים של שתי הקטגוריות העליונות בסולם (בין מנה אחת לשתיים ושלוש או יותר) קרובים יחסית, וגם ציוני הדרגה הממוצעת. הם מבטאים הנחה מוסתרת כי אין הבדל משמעותי בין צריכה של עד 2 מנות וצריכה גבוהה יותר. ייתכן מאד כי הנחה זו אינה סבירה, כיוון ששלוש מנות או יותר יכולות להיות 3 מנות, 54 מנות, ואף יותר מכך.

בהנחה כי בחרנו מראש רמת מובהקות הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \alpha=0.05} (ובהתעלמות מבעיית ההשוואות המרובות), נדחה את ההשערה כי לא קיימת מגמת עליה בשיעור המומים המולדים בתינוקות ביחס לאמצע הטווח של קטגוריות צריכת האלכוהול, אך לא נוכל לדחות את ההשערות האחרות.

ראו גם

לקריאה נוספת

  • Agresti, Alan (2007). An introduction to categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 978-0-471-22618-5.
  • Agresti, Alan (2002). Categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 0-471-36093-7.

קישורים חיצוניים

  • Cochran-Armitage Trend Test Using SAS - Hui Liu, Merck Research Labs, Merck & Co., Inc, Rahway, NJ. כאן מוגדר המבחן על פי הגדרת מבחן M בריבוע ומובאת דוגמה ליישום המבחן בתכנת SAS.

הערות שוליים

  1. ^ Agresti, Alan, 2.5.1, An Introduction to Categorical Data Analysis, 2nd edition, Hoboken, New Jersey: JohnWiley & Sons, Inc., 2007, עמ' 41, מסת"ב 978-0-471-22618-5
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0