מדידה והערכה

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
Disambig RTL.svg המונח "כלי מדידה" מפנה לכאן. לערך העוסק במכשיר למדידת גודל פיזיקלי, ראו מכשיר מדידה.

במדעי החברה, מדידה היא התאמה של ערכים מספריים לתכונות או לגדלים על פי כללים.

יש שוני מהותי בין המדידות הנערכות במדעי המדויקים (כגון פיזיקה וכימיה), בין מדידות והערכות הנערכות במדעי החברה ובין מדידות והערכות הנערכות בחינוך הפורמלי. שוני זה מתבטא קודם כל בהגדרת המדידה במדעים המדויקים שהיא השוואת גודל לא מוכר לגודל מוכר (השוואה אל יחידת מידה או כפולותיה). יש גם תחומים שבהם חלק מהמדידות דומות לאלה שבמדעים המדויקים וחלק לאלה שבמדע החברה או שהמדידות בהן בעלות מאפיינים חלקיים של המדידות מהמדעים המדויקים. תחומים אלה הם מדעי הרפואה, ביולוגיה וככל הנראה גם מדעי כדור הארץ. המדידות במדעים המדויקים הן בעלות איכויות גבוהות שהחשובה בהן היא האובייקטיביות הכמעט מוחלטת שלהן. אולם לא כל גודל או תכונה אפשר למדוד או קל למדוד בסטנדרטים גבוהים כל כך. ערך זה יסביר את מאפייני המדידות במדעי החברה ובמדעי הרפואה ואת ההליכים הדרושים כדי להקנות להן איכות גבוהה עד כמה שאפשר. בנוסף יוסבר פה מושג ההערכה.

מדידה היא התהליך בו נתקבל המידע הגולמי אודות התכונה המבוקשת. תהליך המדידה מחייב כלי מדידה: מכשיר (פנימי או חיצוני למודד) המאפשר את קבלת הנתונים. כמו כן נחוצה אמת מידה: היכולת להשוות את התכונה הנמדדת להגדרה ידועה מראש. מדידה עשויה להיות מדויקת (לרוב כאשר כלי המדידה חיצוני למודד) או גסה (לרוב כאשר כלי המדידה פנימי למודד).

דוגמה: מדידת משקל היא התהליך בו מתקבל הנתון הגולמי אודות משקלו של עצם. לצורך כך משתמשים בכלי למדידת משקל, כגון מאזניים (כלי חיצוני למודד) או תחושת-כובד בעת הרמת או הזזת העצם (כלי פנימי למודד). אמת המידה עשויה, במקרה זה, להיות "קילוגרם" (מספר קילוגרמים מדויק), או ידיעה גסה בדבר "הרבה" או "מעט" קילוגרמים ביחס לנורמה כלשהי.

להערכה שתי משמעויות אפשריות:

  • הערכה עשויה להיות התהליך בו נקבע ערכה של התכונה הנמדדת. תהליך ההערכה אינו מובדל בהכרח מתהליך המדידה, אך הוא מחייב מעורבות אקטיבית של המעריך, ומחייב סובייקטיביות, כלומר - התבססות על נורמות וערכים השייכים למעריך.
בדוגמה הקודמת: ניתן להעריך עצם כ"כבד" או "קל", וזאת בהתאם לנורמות ולערכים הסובייקטיביים של המעריך. כך סבל ופקיד יעריכו בצורה שונה משקלי עצמים (התאמה לנורמות של המעריך), וכן השימוש של העצם קובע עד כמה הוא קל או כבד (התאמה לערכי המעריך).
  • הערכה עשויה להיות מדידה גסה.

סולם מדידה

Postscript-viewer-blue.svg ערך מורחב – סולם מדידה

אחת הסיבות לשוני בהגדרת המושג מדידה בין המדעים המדויקים לבין מדעי החברה הוא שמדעי החברה משתמשים ביותר סולמות מדידה מאשר המדעים המדויקים. ישנם ארבעה סולמות מדידה: שמי, סדרי, ריווחי ומנתי. המדעים המדויקים מודדים ערכים בשני הסולמות האחרונים בלבד.

אמינות לעומת חוסר הטיה

מדד בעל אמינות נמוכה הוא מדד בעל שגיאות מדידה מקריות גדולות. לשגיאות כאלה יש אותו סיכוי להגדיל ולהקטין את תוצאת המדידה. דרך מקובלת להתגברות על שגיאות כאלה היא עריכת מדידות רבות וקבלת ממוצע התוצאות שלהן כתוצאת המדידה הסופית.

בניגוד לזה, מדד בעל הטיה הוא מדד בו השגיאות שיטתיות ונוטות בעיקר להגדיל או בעיקר להקטין את התוצאה. עריכת מדידות רבות וקבלת הממוצע שלהן כתוצאה סופית לא תעזור להתגבר על ההטיה. התגברות על הטיה מחייבת הבנה של גודל ההטיה וכיוונה. לדוגמה: אם מד טמפרטורה מוטה בשתי מעלות למעלה, יש להפחית מכל התוצאות של מדידותיו שתי מעלות.

לעיתים אפשר להבין את ההטיה מתוך ניתוח התוצאות. למשל, אם מודדים את משקלם של מאה ילדים ואחרי הילד העשרים ושביעי, נשפך קפה על מכשיר המדידה והחל מהילד העשרים ושמיני ממוצע משקל הילדים עולה בעשרה קילוגרם, ניתן להניח שהקפה גרם להטיה במכשיר המדידה. במקרה כזה, החל מתוצאת מדידת הילד העשרים ושמיני, יש להוריד עשרה קילוגרם מכל תוצאה ותוצאה.

הטיה וחוסר אמינות של תשובות בשאלונים יש לגלות במערך ניסויים המשווה את תשובות השאלונים לתוצאות מדידה שיש להניח שהיא אובייקטיבית יותר. לדוגמה: מיקלסן (2007)[1] השווה שאלון על זמן השימוש היומי הממוצע במחשב בכלל ובמקלדת ובעכבר בפרט למדידות יותר אובייקטיביות של משתנים אלה (המדידות האובייקטיביות יותר עדיין לא אובייקטיביות מספיק עבור מדעים מדויקים). הוא גילה מה ההטיה ומה חוסר האמינות של שלוש השאלות: "במשך כמה שעות ביום אתה משתמש במחשב?", "במשך כמה שעות ביום אתה משתמש במקלדת?" ו-"במשך כמה שעות ביום אתה משתמש בעכבר?". לשלוש השאלות יש מידת הטיה וחוסר אמינות שונה. בניגוד לשתי השאלות האחרות, השאלה "במשך כמה שעות ביום אתה משתמש בעכבר?" התבררה כחסרת אמינות עד כדי כך עד שהמדגם הדרוש לאמינותה בסקר הוא כה גדול שמומלץ פשוט לא לשאול אותה בסקרים. שתי השאלות האחרות אמינות יותר ואם משלבים אותן בסקר, יש להביט במחקרו של מיקלסן כדי לדעת איזה ערך להחסיר מהתוצאות שלהן.

תקפות מדידות

תוקף הוא התשובה לשאלה "האם הכלי מודד את מה שהוא אמור למדוד?". על השאלה הזאת ניתן לענות בדרכים רבות ומגוונות, וממנה נגזרות כמה דרכים מקובלות להתייחסות: תוקף מבנה, תוקף תוכן, תוקף המדידה, תוקף פנימי, תוקף חיצוני ותוקף המסקנה הסטטיסטית. ישנן מספר דרכים לתאר את היחסים בין סוגי התוקף השונים. הדרך המקובלת היא להתייחס לתוקף המבנה התאורטי של המשתנה הנמדד כאל סוג התוקף הרחב ביותר, ולסוגי התוקף האחרים כאל היבטים שונים בתיאור תוקף המבנה. לשאלת התוקף קודמת שאלת המהימנות, ששואלת "האם בשימוש בכלי המדידה המסוים, נקבל תוצאות עקביות?". כלי שאינו מהימן אינו יכול להיות תקף, ולכן על החוקר להוכיח טרם השימוש בכלי המדידה את מהימנות התוצאות שנאספות באמצעותו.

תקפות תוכן

תקפות תוכן (Content Validity) היא ההתאמה בין הערך שאתה מודד לבין מה שאתה מנסה לדעת. במדעי החברה והרפואה אנו מעוניינים במדידת ערכים רבים שמדידתם הישירה מסובכת או בלתי אפשרית. לכן אנו מודדים ערך אחר שאנו מאמינים שהוא קשור בהם. אמונה זו יכולה להיות מאוששת על ידי התאוריה או על ידי מחקרים קודמים אך כל זמן שאין בה ביטחון מוחלט על החוקר להעריך אותה או לבדוק אותה בניסוי.

דוגמה מוכרת לשאלות התוקף של המדידה כזו היא הבחינה הפסיכומטרית לקבלה לאוניברסיטאות שלכאורה אמורה לשקף את יכולת המועמד תלמיד להצליח בלימודי התואר הראשון שלו, אך הספר שונות כיד המקרה/יופה מדווח על ניסוי שמערער לחלוטין את תקפות התוכן שלה. התהליך של בניית התוקף, כמו כל תהליך במחקר אקדמי, הוא כזה שבנוי ממחקרים ומחקרי נגד, כאשר מבחן טוב הוא כזה שהטיעונים בעדו ונגדו הם לפחות שקולים בכמותם ובאיכותם. דוגמה מוכרת אחרת היא תוקפה של מדידת טמפרטורת הפה (אחרי מנוחה) כדי להעריך את חומרתו של זיהום חיידקי או זיהום נגיפי. מדידת הטמפרטורה בפה מעניינת אותנו בתור אינדיקציה בריאותית. מכיוון שידוע לנו שלעיתים טמפרטורת הגוף גבוהה ומצב הבריאות תקין, ולהפך, הרי שתוקפה של מדידה זו כאינדיקציה יחידה למצב הבריאות אינו מושלם. זאת בניגוד למדידת חום מי האמבט בו מושרות המבחנות בניסוי בביוכימיה. בניסוי בביוכימיה אנו מעוניינים בטמפרטורה כשלעצמה ולא כאינדיקציה. מסיבה זאת נהוג להשתמש בסוללות מבחנים לצורך קבלת החלטות לגבי המשתתפים במדידה ולא להסתמך על מדד יחיד. למשל, בדוגמת המיון ללימודי תואר ראשון, הבחינה הפסיכומטרית אינה משמשת מדד יחיד, ובנוסף למבחני הבגרות היא משוקללת יחד עם מידע נוסף, לפי החלטת המחלקה האקדמית. מידע זה יכול להיות סוללת מבחנים שלמה (כמו במקרה של מבחני מו"ר ומרק"ם במיון ללימודי רפואה), ראיונות אישיים, משתנים סוציואקונומים וכולי.

תקפות התוכן של מדידת הטמפרטורה בפה כאינדיקציה לחולי היא די מוצלחת לגבר גורמי מחלות רבים אך הבנה לקויה לעובדה שמדידת טמפרטורה אינה "מדידת בריאות" עלולה לעלות למטופל שלך בחייו במקרה שהוא נדבק בגורם מחלה אלים שאינו מפתח חום גבוה. מקרה כזה מדווח בספר Smart but Feeling Dumb/Levinson. במקרה זה הגיע אל בית החולים אדם מבולבל מאוד שהנוירולוג שלח שוב ושוב אל הפסיכולוג בטענה שאם אין לו חום סימן שהבלבול שלו נובע מבעיות פסיכולוגיות ולא מדלקת קרום המוח. שגיאתו של הנוירולוג התבררה רק לאחר שכבר היה מאוחר מדי לתת לו אנטיביוטיקה.

תוקף נראה

תוקף נראה (Face Validity). התייחסות זו למדידה שואלת את השאלה "האם המשתתפים במדידה מרגישים שהיא תקפה". סוג תוקף זה עשוי להיתפס כלא משמעותי, משום שהוא עוסק בחוויה הסובייקטיבית של הנמדדים, אך למעשה, הוא אחד מסוגי התוקף החשובים ביותר. מבחן בעל תוקף נראה נמוך לא יעבור את מבחן השימוש הציבורי בו, וגם אם הוא עומד בסוגי מבחני התוקף והמהימנות האחרים, הסיכוי להשתמש בו בפועל - נמוך.

סוגי תקפות אחרים

סוגי תקפות אחרים קשורים לתקפותן של מסקנות מחקריות ולא לתקפות המדידות.

מקצועות וענפי מדידה במדעי החברה והרפואה

הערכה ומדידה פורמליות

מדידה פורמלית היא תהליך שבו מתקבל תיאור כמותי של תכונה או יכולת מסוימת. לדוגמה, לצורך מדידה פורמלית של ביצועי תלמיד במטלה מסוימת (מבחן, עבודה וכו'), נציין מספרים שנבחרו לפי כללים מסוימים המעידים על ביצועי התלמיד במטלה האמורה.

הערכה פורמלית היא מונח כולל לקבלת מידע, למשל אודות הלמידה של תלמיד והשיפוט לגבי התקדמותו בלימודים.

Postscript-viewer-blue.svg ערך מורחב – מונחים בהערכה פורמלית
Postscript-viewer-blue.svg ערך מורחב – הערכה ומדידה בחינוך פורמלי

מדידה בשירותים חברתיים

מדידת תוצאות בשירותים חברתיים היא הערכה שיטתית אשר נועדה לענות על השאלות: האם, באיזו מידה ועבור מי הושגו השינויים שבמוקד תהליך ההתערבות או תוכנית הפעולה. במילים אחרות, מדידת התוצאות מאפשרת מענה לשאלת מועילּות התוכנית עבור משתתפיה. אמצעי ההערכה האפשריים מגוונים, ונעים ממדידה בכלים סטנדרטיים, כגון שאלונים וראיונות מובנים, ועד לדרכים יצירתיות, כגון ציור או משחק. אפשר לערוך מדידה איכותנית או כמותית. מדידה כמותית מאפשרת גם איגום של נתונים מלקוחות שונים והשוואה לפי חתכים שונים של מאפיינים וצרכים לצורך זיהוי מגמות, גיבוש מדיניות ופיתוח מענים מתאימים. מדידת תוצאות מחייבת תמיד ניטור אחר יישום התפוקות וזאת כדי לבסס קשר בין ההתערבות לבין שינויים שחלו בעקבותיה. מדידת תוצאות ההתערבות או התוכנית יכולה להיעשות כחלק מהמהלך עצמו, ולשרת גם את תהליך שינוי. מדידת תוצאות יכולה להיעשות גם עבור תוכנית לשינוי ברמת הארגון. למשל, ניתן למדוד באיזו מידה חלה הפחתה בשחיקת העובדים או גבר התיאום ושיתוף הפעולה בין הגורמים המטפלים.[2]

קיימים ארבעה תנאים מקדמים המעכבים תהליך של מדידה והערכה: המידה בה יש עניין במדידה והערכה בקרב אנשי המקצוע ביחידה, המידה בה יש אקלים ארגוני התומך במדידה והערכה, המידה בה יש תשתיות התומכות בלמידה והערכה, המידה בה יש תנאים מערכתיים אשר מקדמים תהליכי מדידה והערכה.[2]

פסיכומטריה ותועלתה הרפואית והחברתית

פסיכומטריקה היא תורת המדידות בפסיכולוגיה. רוב המדידות בתחום זה נעשות על ידי מילואי שאלונים. דוגמאות למדידות פסיכומטריות מפורסמות: בחינות IQ (מנת משכל) הנותנות הערכה לאינטליגציה של הנבחן ובוחן כתמי הדיו של רורשאך שבודק יצירתיות ושפיות.

מבחנים פסיכולוגיים נועדו לסייע במשימות שבהן נדרש איתור אנשים המתאימים למשימה מסוימת, כגון:

  • מציאת עובדים המתאימים לאיוש משרה מסוימת,
  • מיון חיילים ליחידות צבאיות.
  • מיון מועמדים ללימודים אוניברסיטאיים, באמצעות הבחינה הפסיכומטרית.

מטרה נוספת של הפסיכומטריקה היא אבחון מחלות ולקויות נוירולוגיות ופסיכיאטריות, שטרם נמצאו להן כלי אבחון ומדידה מוצלחים מתחום מדעי הטבע. דוגמאות מנוירולוגיה: נכון לינואר 2008, ליקויי הלמידה הספציפיים, הפרעת קשב, ריכוז והיפראקטיביות ורוב תסמונות הקשת האוטיסטית מאובחנות באופן פסיכומטרי. מקצועות פרא-רפואיים, כגון אספקת טכנולוגיה מסייעת עשויים גם הם להיעזר במבחנים מתחום הפסיכומטריה כגון "מדד קבק לשינוי איכות החיים בעקבות שימוש בפריט ציוד טכנולוגיה מסייעת".

מידת הצלחתן של בחינות פסיכומטריות במשימת הניבוי המוטלת עליהן נמצאת בבחינה מתמדת, ולעיתים שנויה במחלוקת. מדידת התוקף והמהימנות של המבחן היא תהליך שנשען על גוף מחקרי תאורטי, ומתבסס על שימוש בכלים ושיטות סטטיסטיות.

מדידות גסות

מדידות הנעשות מהר, אינן דורשות הכשרה מיוחדת ואינן מדויקות במיוחד. מדידות כאלה עשויות להיות מועילות מאוד. דוגמאות:

  • מדידות גסות בטראומטולוגיה (תורת החבלות) ובטיפול נמרץ כגון מדד גלאזגו לחוסר הכרה והמדדים לעומק ושטח כוויה יכולים לספק בתוך שניות מידע שקובע את טקטיקת ההחייאה. מדידה מדויקת יותר תיתן תוצאות מאוחר מדי.
  • מדידות גסות שאין להן תחליף כמו מדידת עוצמת כאב על ידי הדרישה שהמטופל ידרג את עוצמת הכאב שהוא חש בין 0 לבין 10 או הפעלת צוות מריחים לקביעת עוצמת מטרד ריח. צוות מריחים מורכב מחמישה אנשים בעלי חוש ריח מוצלח המנוסים בדירוג מטרדי ריח שכל אחד מהם נותן ציון בין 0 לחמש לרמת הסרחון במקום מסוים. בניגוד לריכוז חומר כימי באוויר, למידת המטרד של החומר אין מדידה אחרת.

ראו גם

לקריאה נוספת

  • יצחק פרידמן, מדידה והערכה של תוכניות חברתיות וחינוכיות, הוצאת מכון הנרייטה סולד, 2004.
  • Trochim, W.: The Research Methods Knowledge Base, 2e. Atomic Dog Publishing. 2001

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא מדידה והערכה בוויקישיתוף

הערות שוליים

  1. ^ Mikkelsen, S., Vilstrup, I., Lassen, C.F., Kryger, A.I., Thomsen, J.F., Andersen, J.H.: Validity of questionnaire self-reports on computer, mouse and keyboard usage during a four-week period. Occupational and environmental medicine 64(8):541-7, 2007.
  2. ^ 2.0 2.1 ד"ר טל ארזי ורינת פורסטנברג, המדריך האינטגרטיבי לחשיבה תוצאתית, באתר מכון מאיירס-ג'וינט-ברוקדייל, ‏2020
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0