משתנה איכותי

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

משתנה איכותי (או משתנה קטגורי) הוא משתנה בסטטיסטיקה הנמדד בסולם מדידה שמי או סולם מדידה סודר. הערכים של משתנים כאלה נקבעים בדרך כלל על ידי תכונה איכותית, כלומר תכונה שלא ניתן למדוד באופן כמותי. במשתנים מסוג זה אין משמעות לערכים מספריים שבהם מקודדים הערכים שהמשתנים יכולים לקבל.

דוגמאות

להלן מספר דוגמאות למשתנים קטגוריים.

משתנים הנמדדים בסולם מדידה שמי:

  • מין ביולוגי של אדם: זכר/נקבה
  • סוג דם: A, B, AB, O
  • מספר של קו אוטובוס

משתנים הנמדדים בסולם מדידה סודר:

  • דרגות בצבא: טוראי, רב-טוראי, סמל, וכן הלאה.
  • רמת הסכמה עם טענה מסוימת: מסכים מאוד, מסכים, אדיש, לא מסכים, לא מסכים כלל
  • במחלת הסרטן נהוג לסמן את שלבי התקדמות המחלה במספרים (בדרך כלל ספרות רומיות) כגון שלב I, שלב II וכולי. קיימים גם תתי שלבים כגון שלב IIa או IIb

ניתן לקודד את הערכים של משתנים קטגוריים במספרים, אך לערך המקודד אין שום משמעות. למשל הקידוד זכר=1, נקבה=2, אינו שונה באופן מהותי מהקידודים נקבה=1, זכר=2 או נקבה=0, זכר=1 וכדומה.

מקרה מיוחד הוא משתנה ספירה. משתנה כזה בדרך כלל סופר את מספר האירועים שהתרחשו (למשל מספר הלידות שאירעו במקום מסוים במשך תקופת זמן מוגדרת), או את מספר ההצלחות בסדרת ניסויים גדולה עם הסתברות נמוכה להצלחה בכל ניסוי (למשל, מספר הזוכים בהגרלת כגון הגרלת הפאוורבול, שבה יש מספר גדול של משתתפים ולכל משתתף הסתברות זעירה לזכייה בפרס הגדול). התפלגותם של משתנים כאלה היא בדרך כלל התפלגות פואסון או התפלגות בינומית שלילית. כאן לערכים יש משמעות מספרית, כולל לערך 0, ולכן זהו למעשה משתנה הנמדד בסולם מנה. עם זאת, לעיתים נוח וכדאי לנתח משתנה כזה בשיטות ניתוח המתאימות לניתוח משתנים קטגוריים.

לעיתים יוצרים משתנה קטגורי על ידי קביעת טווחים של משתנה כמותי. על ידי כך נוצר משתנה בסולם מדידה סודר. למשל, ערך של בדיקת מעבדה כלשהי יכול להיות מסווג כ-"מתחת לנורמה", "בתחום הנורמה" או "מעל לנורמה".

שיטות לניתוח משתנים קטגוריים

סטטיסטיקה תיאורית

כאשר דנים בנתונים של משתנה קטגורי שמי, מדד המיקום האפשרי היחידי עבור משתנה כזה הוא השכיח. למדידת רמת הפיזור של משתנה קטגורי שמי ניתן להשתמש במדדים כגון האנטרופיה או מדד ג'יני.

כאשר מדובר בנתונים של משתנה מסולם סודר, ניתן בנוסף לחשב את החציון ואחוזונים נוספים, כגון רבעונים ועשירונים. ערכי האחוזונים מאפשרים גם הערכה של רמת הפיזור, אך יש לזכור כי אין משמעות למדדים המבוססים על הפרשים בין האחוזונים, כגון התחום הבין רבעוני.

קיימים מספר מדדים להערכת עוצמת הקשר הסטטיסטי בין משתנים קטגוריים לבין עצמם, או בין משתנים קטגוריים ומשתנים מסולם מדידה גבוה יותר. למדידת עצמת הקשר בין שני מדדים קטגוריים ניתן להשתמש במדדים כגון מתאם קרמר, מקדם Q שהוצג על ידי אדני יול, מקדמי המתאם הטטרהכורי והפוליכורי שפותחו על ידי קרל פירסון, ומדדים רבים נוספים.[1]

למדידת עצמת הקשר בין שני משתנים מסולם מדידה סודר ניתן להשתמש במקדם המתאם של ספירמן, ולמדידת עצמת הקשר בין משתנה קטגורי למשתנה כמותי ניתן להשתמש במקדם המתאם התוך-אשכולי (Intraclass correlation).

סטטיסטיקה היסקית

קיימות שתי גישות עיקריות לניתוח היסקי של נתונים המתקבלים ממשתנים קטגוריים.

גישה אחת מתמקדת בהתפלגות של המשתנה הקטגורי, או בהתפלגות המשותפת של מספר משתנים קטגוריים. על פי גישה זו מניחים מודל התפלגותי, אומדים את הפרמטרים של המודל, ובודקים את טיב ההתאמה של המודל לנתונים.

דוגמה פשוטה לגישה זו היא מודל המניח אי תלות בין שני משתנים קטגוריים. הנחת המודל היא כי עבור שני משתנים קטגוריים, ו-, ההתפלגות המשותפת של שני המשתנים שווה למכפלת ההתפלגויות השוליות של כל אחד מהמשתנים, כלומר לכל זוג ערכים ו- שהמשתנים ו- יכולים לקבל.

ניתן לבדוק את טיב ההתאמה של מודל זה (או כל מודל אחר) לנתונים בעזרת מבחן חי בריבוע.

ייתכנו מצבים בהם ו-אינם בלתי תלויים, ואז יש להציע מודל למבנה התלות בין המשתנים. גישה נפוצה היא המודל הלוג-ליניארי[2] שפותח על ידי איבון בישופ. גישות לא ליניאריות הוצגו על ידי ליאו גודמן.[3]

הגישה העיקרית השנייה היא יישום של מודל רגרסיה, בו המשתנה המוסבר הוא משתנה קטגורי, והמשתנים המסבירים יכולים להימדד בכל סולם מדידה. בין המודלים הנפוצים לניתוחים מסוג זה ניתן למנות את מודל הרגרסיה הלוגיסטית והרחבותיו: הרגרסיה המולטינומית והרגרסיה האורדינלית.

ראו גם

לקריאה נוספת

  • Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 0381130.
  • Agresti, Alan (2007). An introduction to categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 978-0-471-22618-5.
  • Agresti, Alan (2002). Categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 0-471-36093-7.

קישורים חיצוניים

הערות שוליים

  1. ^ Goodman, Leo A., and William H. Kruskal, Measures of association for cross classifications, Journal of the American statistical association, 268 49, 1954, עמ' 732-764
  2. ^ Agresti, Alan, Chapter 7, An introduction to categorical data analysis, 2nd edition, JohnWiley & Sons, 2007, עמ' 204-243, מסת"ב 978-0-471-22618-5
  3. ^ Goodman, Leo A., The analysis of cross-classified data having ordered and/or unordered categories: association models, correlation models, and asymmetry models for contingency tables with or without missing entries, Annals Of Statistics, 1 13, 1985, עמ' 10-69
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

25215445משתנה איכותי