דיוק ונכונות

מתוך המכלול, האנציקלופדיה היהודית
(הופנה מהדף שגיאה שיטתית)
קפיצה לניווט קפיצה לחיפוש
Disambig RTL.svg המונח "דיוק" מפנה לכאן. אם הכוונה למשמעות אחרת, ראו דיוק (פירושונים).

בתחומי התעשייה, המדע, ההנדסה והסטטיסטיקה, נכונות (Accuracy) של מערכת מדידה נקבעת על פי מידת הקרבה של המדידות של כמות מסוימת, לערך הממשי האמיתי של אותה כמות. דיוק (Precision) של מערכת המדידה, המכונה גם שחזור (Repeatability) או הדירות (Reproducibility), היא המידה שבמקרה שנחזור על המדידות בתנאים ללא שינוי, נקבל את אותן תוצאות. בפיזיקה המונחים המקובלים הם שגיאה אקראית או שגיאה סטטיסטית (random error, statistical error) כאשר מתייחסים לדיוק, ושגיאה שיטתית (systematic error) המתייחסת לנכונות.

לכל ניסוי יש דיוק ונכונות מסוימים, שאינם אפס. במדע, שגיאת מדידה איננה "טעות", ואיננה מעידה על ניסוי פגום. השגיאה היא חלק מתוצאות הניסוי, ודווח תוצאותיו של ניסוי ללא השגיאה בצידן הוא דווח חסר. המצב הרצוי בדרך כלל עבור מערכת מדידה הוא נכונות גבוהה וגם דיוק גבוה.

מערכת מדידה יכולה להיות נכונה אך לא מדויקת, מדויקת אך לא נכונה, לא מדויקת ולא נכונה או שניהם. לדוגמה, אם ניסוי מכיל שגיאה שיטתית הרחבת המדגם תגביר את דיוקו אך לא תשפר את נכונותו. התוצאה תהיה אוסף עקבי, או מדויק, בעל פיזור קטן, אך רחוק מהתוצאה האמיתית של הניסוי. דוגמה נוספת: כיול של מערכת מקטין את השגיאה השיטתית ומגדיל את נכונות התוצאות, אך לא משנה את דיוקן - את השגיאה האקראית.

תיאור החצים

רמת נכונות גבוהה ודיוק נמוך
דיוק גבוה ורמת נכונות נמוכה

נכונות היא מידת האמיתות בעוד דיוק בהקשרים מסוימים כוונתו למידת השחזור. באנלוגיה בין דיוק ונכונות נשווה מדידות חוזרות לחיצים שהושלכו לעבר המטרה. נכונות מתארת את מידת הקרבה של החץ למרכז לוח המטרה, יותר קרוב למרכז- בעל נכונות גבוהה יותר. כך גם במדידות, קרבה רבה יותר של מדידות המערכת לערך האמיתי המקובל מורה על מערכת מדידה בעלת נכונות גבוהה יותר. כדי להמשיך את אנלוגית החצים, אם מספר רב של חיצים מיורט למטרה, דיוק ייצג את גודל אשכול החצים (אם רק חץ אחד נורה, נכונות תהיה גודל האשכול המצופה אם נחזור על הזריקה מספר פעמים תחת אותם תנאים). כאשר כל החצים שנזרקו קרובים אחד לשני האשכול נחשב כמדויק מאחר שכולם פגעו באותו אזור, גם אם לא בהכרח ליד מרכז המטרה. משמע-המדידות מדויקות, אך לא בהכרח נכונות.

לא ניתן להשיג נכונות באופן מהימן במדידות בדידות מבלי דיוק-אם החצים לא מקובצים ביחד הם לא יכולים להיות כולם קרובים למרכז המטרה (העמדה הנוכחית של אשכול החצים יכולה להיות מקובצת סביב מרכז המטרה אבל עמדת החצים הבודדים עשויה להיות בלתי מדויקת).

שיטות למדידה והערכה

מכשיר מדידה הוא אידאלי אם הוא גם מדויק- מדידותיו קרובות אחת לשנייה, וגם בעל נכונות- המדידות מקובצות סביב ערך ידוע. הדיוק והנכונות של תהליך המדידה נקבע בדרך כלל על ידי מדידה חוזרת ונשנית של תקני מעקב ייחוסים. תקנים אלו מוגדרים במערכת היחידות הבינלאומית ומתוחזקים על ידי ארגוני תקנים לאומיים כגון: המכון הלאומי לתקנים וטכנולוגיה (National Institute of Standards and Technology) בארצות הברית.

שיטות אלו מיושמות גם כאשר יוצרים ממוצע של מדידות חוזרות. כאן בא לידי ביטוי המונח "טעות תקן": הנכונות של הממוצע שווה לסטיית תקן הידועה של התהליך מחולקת לשורש הריבועי של מספר המדידות בממוצע. יתר על כן, משפט הגבול המרכזי מראה כי התפלגות ההסתברות של מדידות ממוצעים יהיה קרוב יותר להתפלגות נורמלית מזו של מדידות נפרדות.

מיון בינארי

ניתן למדוד ולהעריך את נכונות ודיוק הנתונים על ידי מיון של תנאים באופן בינארי (binary classification).

תנאים שהוחלטו על פי מדד הזהב
נכון לא נכון
תוצאות
המבחן
חיובי חיובי נכון (True positive) חיובי לא נכון (False positive) ערך ניבוי חיובי או דיוק
שלילי שלילי לא נכון (False negative) שלילי נכון (True negative) ערך ניבוי שלילי

רגישות או חזרה

סגוליות (או המשלים שלו-הפיזור)
נכונות

נכונות מייצגת את שיעור התוצאות הנכונות (גם החיוביות וגם השליליות) מבין כל תוצאות המבחן.

Precise.PNG

מצד שני, דיוק או ערך ניבוי חיובי (Positive predictive value), מוגדר כשיעור הערכים החיוביים הנכונים מבין כל התוצאות החיוביות (גם הנכונות וגם הלא נכונות).

Accuracy.PNG

דיוק של 100% משמעו שערכי המדידות הם בדיוק כמו ערכי הנתונים.

איכות ודיוק בהקשר של מערכות מידע ובסיסי נתונים

אחת המטרות של מערכת מידע היא לספק לארגון תובנות עסקיות המאפשרות לו למקסם את היכולות שלו פנימית או אל מול הלקוחות אותם הוא משרת. התובנות העסקיות המתקבלות ממערכות המידע מתורגמות להחלטות על ידי המנהלים בארגון. החלטה שגויה תגרום לארגון לאיבוד כיוון ולבזבוז של משאבי כסף וזמן, שהם קריטיים בסביבה התחרותית בה אנו נמצאים היום.

על מנת שמערכות המידע יוכלו לספק את היכולות הללו הן נשענות במידה רבה על מחסן נתונים (Data Warehouse) ארגוני, המכיל את המידע הנאסף מהמערכות השונות בארגון. התלות במידע נכון ומאומת מובילה למסקנה שארגון מושתת לא רק על הנכסים הפיזיים, האנושיים והאינטלקטואליים הנמצאים ברשותו אלא גם על תשתיות מידע יציבות ומכאן גם הקריטיות של איכות הנתונים הנמצא במחסן הנתונים.

הנתונים הם באיכות גבוהה "אם הם מתאימים לשימושים המיועדים להם בביצוע פעולות, קבלת החלטות ותכנון" (J. M. Juran). נתונים מוגדרים כאיכותיים כאשר הם מייצגים את מבנה העולם האמיתי שאליו הם מתייחסים. כלומר, עליהן לקיים את תכונות האיכות הבאות:

  • דיוק - מידת התאימות בין סט של נתונים וסט של ערכים נכונים בהתאמה. משמע, נתונים שאינם עומדים בסתירה לנתונים אחרים.
  • עדכניות (Current) - ישות או ישויות מרובות המסופקות בזמן הנדרש או הנקוב מראש וקובעות את מידת עדכניות הנתונים.
  • עקביות וסטנדרטיות (Consistent and Standards) - בארגון עם נתונים איכותיים, כל המידע חייב להיות מובנה באותה צורה, על בסיס סטנדרטים שנקבעו ברחבי הארגון כולו וכך ליצור עקביות פנימית בין הנתונים.
  • שלמות (Integrity) - הצגה תמונת נתונים מלאה על הישויות בהם המידע עוסק.
  • נכונות ומהימנות - עקביות לוגית המאפשרת קשר הגיוני בהשוואה לנתונים דומים, בין השאר מניעת כפילויות והגדרה של חוקים עסקיים המגדירים את המידע באופן ברור.
  • ייחוד (Uniqueness) - קיום של אילוצים על הנתונים להיות ייחודיים, ללא חזרות מיותרות - כל ערך יהיה ייחודי ויחיד מסוגו.

בבוא הארגון לטפל בנושא איכות המידע עליו לעבוד, למעשה, בשני מישורים : המישור הראשון הוא המישור הארגוני-תרבותי הנותן מענה לאופן שבו הארגון מגדיר את החשיבות של הטיפול באיכות הנתונים, והמישור השני הוא המישור הטכנולוגי המאפשר את הטיפול באיכות הנתונים בצורה יעילה וחסכונית לאורך זמן.

במישור הארגוני יש לטפל בנושאים הארגוניים הבאים:

  • סביבת עבודה - אנשים, טכנולוגיה ותהליכים בארגון.
  • טיפול באיכות הנתונים - זיהוי ותיקון הסיבות לכשלי מערכת הנתונים בארגון.
  • הגדרת תהליכים לניהול שינויים וניהול הידע שקיים בארגון.
  • כימות התועלות אל מול הזיהוי והתיקון.
  • בנייה והגדרת תוכנית איכות נתונים בארגון שניתן לקיימה.
  • הגדרת גורם ארגוני שאחראי על איכות הנתונים.

הטיפול במישור הטכנולוגי משלים את המישור הארגוני ומאפשר ביצוע בקרת איכות הנתונים בצורה יעילה. הפעילות במישור זה מאופיינת על ידי ארבעה שלבים:

  1. הגדרה - הגדרת מהות הבעיה והנקודות הקריטיות בתהליך.
  2. בדיקה - בדיקת פריטי המידע על פי קריטריונים מוגדרים.
  3. החלטה - קבלת החלטות על איכות הנתונים בהתאם לתוצאות הבדיקה.
  4. פעולה - הגדרה של פעילות מונעת או פעילות בקרה לטיפול בנתונים.

כדי לטפל בבעיות איכות הנתונים על הארגון לנהל תהליכי בקרת איכות נתונים בצורה שוטפת. לאופי תהליכי בקרת התהליכים מספר גישות שניתן לחלק לשתי גישות עיקריות:

הגישה הראשונה - בודקת את הנתונים ללא הגדרה ספציפית של חוקים, מציעה תיקון לנתון שנבדק ואף מתקנת את הנתונים בעצמה. גישה זו מתייחסת בעיקר לנתונים ולא לתהליך היוצר אותם. המשמעות היא שמערכת הבקרה לוקחת על עצמה את האחריות לטיפול בנתונים ומתקנת אותם 'בסוף הדרך'.

הגישה השנייה - גישה זו מבוססת על חוקים עסקיים, מנטרת בסיס נתונים, מזהה בעיות ומציפה אותם אל האחראים לצורך טיפול. בגישה זו האחראים מניעים מעגל של שיפור איכות הנתונים הן במחסן נתונים, הן במערכות המקור או בתהליכים שגרמו לבעיה. לאחר מכן, הם דואגים לטיפול שורשי בגורם ובכך מונעים שוב את היווצרותן של אותן בעיות.

המערכת מהווה חוצץ המונע מעבר של נתונים לא תקינים. דרישות המחוקק (רגולציה) הן לשמירה מתמדת על איכות הנתונים בארגון - דרישות הממונה על שוק ההון, המפקח על הבנקים וכדומה. ממחקרים רבים ומניסיון מצטבר בארגונים בהם הוטמעו פרויקטי איכות נתונים וטיוב נתונים, ההערכות הן כי נתונים באיכות גבוהה יכולים לחסוך/לשפר את התוצאות העסקיות עד כדי 15-25% ממחזור הפעילות של הארגון. למרות זאת, כיום בעיית איכות הנתונים קיימת בארגונים רבים.

ארגונים רבים דיווחו על בעיות חמורות והפסדים משמעותיים הנובעים מנתונים שגויים או בלתי ניתנים להשגה. כל פרויקטי ה-ERP,CRM בארגונים כוללים שלב של הסבת נתונים. הדבר נכון גם למקרים של מיזוג מערכות או מעבר למערכות ייחודיות חדשות לארגון. בכל מקרה כזה, יש חשיבות קריטית לאיכות הנתונים בתהליך ההסבה. בעולם העסקי והתפעולי של ימינו, נתונים הם הבסיס והתשתית עליה נבנות וממנה נגזרות כל ההחלטות העסקיות, השפעתם היא מיידית על תוצאות הפעילות של הארגון ולכן יש צורך להקפיד על איכותם, דיוקם ונכונותם.

מקורות

  • JCGM 200:2008 International vocabulary of metrology — Basic and general concepts and associated terms (VIM).
  • John Robert Taylor (1999). An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements. University Science Books. pp. 128–129. מסת"ב 0-935702-75-X.
  • K.H. Brodersen, C.S. Ong, K.E. Stephan, J.M. Buhmann (2010). The balanced accuracy and its posterior distribution. Proceedings of the 20th International Conference on Pattern Recognition, 3121-3124.
  • John M. Acken, Encyclopedia of Computer Science and Technology, Vol 36, 1997, page 281-306
  • 1990 Workshop on Logic-Level Modelling for ASICS, Mark Glasser, Rob Mathews, and John M. Acken, SIGDA Newsletter, Vol 20. Number 1, June 1990.
  • Ivanov, K. (1972). "Quality-control of information: On the concept of accuracy of information in data banks and in management information systems". The University of Stockholm and The Royal Institute of Technology. Doctoral dissertation.

ראו גם

קישורים חיצוניים