מסווג דו-ערכי

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

בסטטיסטיקה ובלמידה חישובית, מסווג דו-ערכי הוא מסווג שמטרתו למיין את הפרטים בקבוצה לאחת משתי תת-קבוצות.

דוגמאות:

  • מסנן ספאם בדואר אלקטרוני מסווג את ההודעות הנכנסות לספאם וללא-ספאם.
  • בדיקה רפואית מאבחנת למחלה (האם המטופל חולה או בריא?).
  • מפעיל מכ"ם שעליו לזהות האם האות המתקבל במכ"ם הוא של מטוס אויב או של עצם בלתי מזיק.

סיווג סטטיסטי

מדדי הערכה למסווג דו-ערכי

מטריצת טעות
Binary-classification-file.svg
תיאור גרפי של מטריצת הטעות: הקו החוצה מפריד בין הפריטים החיוביים (משמאל) לבין הפריטים השליליים (מימין). האליפסה מתארת את המסווג: הפריטים בתוך האליפסה סומנו על ידי המסווג כחיוביים, ומחוץ לה – כשליליים.
קיום התופעה על פי מדד הזהב
קיימת לא קיימת
סיווג חיובי חיובי אמיתי חיובי כוזב
(שגיאה מסוג I)
שלילי שלילי כוזב
(שגיאה מסוג II)
שלילי אמיתי
מדדים שבריים פשוטים
רגישות מספר החיוביים האמיתייםמספר הקיימים
שיעור שליליים כוזבים מספר השליליים הכוזביםמספר הקיימים
סגוליות מספר השליליים האמיתייםמספר הלא-קיימים
שיעור חיוביים כוזבים מספר החיוביים הכוזביםמספר הלא-קיימים
ערך ניבוי חיובי מספר החיוביים האמיתייםמספר המסווגים חיובית
ערך ניבוי שלילי מספר השליליים האמיתייםמספר המסווגים שלילית


Postscript-viewer-blue.svg ערך מורחב – מדדי הערכה למסווג דו-ערכי

אינטואיטיבית, קל לומר אם מסווג מסוים הוא "מוצלח" (כלומר, ממיין את פריטי הקבוצה בדרך שתואמת את ההיגיון שלנו) או לא. עם זאת, לצרכים מדעיים, קיים צורך לתת הערכה מספרית לביצועי המסווג. כדי לבצע זאת, יש צורך לבדוק את המסווג מול קבוצת נתונים קטנה יחסית, שבה ידוע לנו (מלכתחילה או בדיעבד) הסיווג הנכון, בעזרת מדד זהב כלשהו.

גם בהינתן מדד זהב, עדיין ניתן לבחור דרכים שונות להעריך מספרית את הצלחת המסווג (ראו מסגרת).

קיימים מספר יחסים פשוטים, המתארים את היחסים בין חלקים שונים של התרשים. למשל:

  • רגישות מתארת את החלק היחסי של התוצאות החיוביות מתוך כלל הפריטים שאמורים היו להיות מסווגים כחיוביים.
כלומר:
חיוביים אמיתייםכלל החיוביים = חיוביים אמיתייםחיוביים אמיתיים + שליליים כוזבים רגישות
  • סגוליות מתארת את החלק היחסי של התוצאות השליליות מתוך כלל הפריטים שהיו אמורים להיות מסווגים כשליליים.
שליליים אמיתייםכלל השליליים = שליליים אמיתייםשליליים אמיתיים + חיוביים כוזבים


סגוליות

בנוסף, קיימים מדדי הערכה פשוטים פחות, אבל יותר תמציתיים; למשל, מקדם מתאם מתיוז:

ח"א ש"א - ח"כ ש"כ(ח"א + ח"כ)(ח"א + ש"כ)(ש"א + ח"כ)(ש"א + ש"כ)


כאשר ח"א הוא מספר החיוביים האמיתיים; ח"כ הוא מספר החיוביים הכוזבים; ש"א הוא מספר השליליים האמיתיים; ש"כ הוא מספר השליליים הכוזבים.

ניתן לומר, בהכללה, שמקדם מתאם מתיוז מתאר את המתאם בין המסווג למדד הזהב.

להלן איור המסכם את מטריצת הטעות וממדי ההערכה השונים, היסודיים והנגזרים, של מסווג דו-ערכי.

Confusion-Matrix-01.jpg

המרת ערכים רציפים לסיווג דו-ערכי

בהינתן קלט , על המסווג להחליט האם התוצאה חיובית או שלילית. דרך נפוצה לבצע זאת היא על ידי הגדרת פונקציית ניקוד . הניקוד מבטא את מידת ההערכה שתוצאה קרובה לחיובית או חיובית בעצמה. בנוסף, מגדירים פונקציית מדרגה התלויה ב-T (שנקרא ערך הסף, threshold) באופן הבא:

בעזרת שתי הפונקציות הללו, ניתו לבחור מסווג בינארי מהצורה , כלומר: לכל המסווג יחזיר , כלומר: המסווג יחזיר 1 אם הניקוד גדול או שווה לערך הסף, ואחרת יחזיר 0. באמצעות קביעת הסף אפשר להגדיל או להקטין את רגישות המסווג, וכן את הסגוליות. באמצעות עקומת ROC אפשר לבצע אופטימיזציה של המסווג על ידי כוונון הסף.

Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0