נתונים לא-מפוקחים

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

נתונים לא-מפוקחיםאנגלית: unsupervised data) הם נתונים שאינם מתאימים לדרישות ניתוח על ידי סטטיסטיקה. חסרים בהם אחד או יותר מהרכיבים הנדרשים לניתוח כזה, כגון: הגדרת מטרה, מדגם שמיצג את אוכלוסיית המבחן, מבנה ברור של משתנים, אי-תלות בין משתנים (או הגדרת התלות במידה וקיימת), סביבה חיצונית יציבה, וערכים כמותיים במהותם.

חסרונם של אחד או יותר מהרכיבים הללו הדרושים לפתרון, מחליש את יכולת הפקת מסקנות מהנתונים.

רוב הנתונים בימינו הם מסוג unsupervised, מאחר שהם זורמים ממערכות אנלוגיות ודיגיטליות שונות, עוברים אינטגרציה ואחסון, ולעיתים גם "ניקוי". כך שאף אם הוקמו לצורך מטרה מסוימת, הרי שעד הגיעם למחשב הקצה של מנתח הנתונים, הם מאבדים את המטרה והמבנה המקוריים כפי שתוכננו בתחילה.

קימות הגדרות נוספות, חלקיות יותר לנתונים לא-מפוקחים, לדוגמה: "נתונים ללא הגדרת מבנה, שלא נלמדו עדיין", או "נתונים חסרי הגדרת מטרה". שתי הגדרות לדוגמה הנ"ל לא מכסות את האפשרויות, של נתונים בעלי מבנה מוגדר אך הוכנו למטרות אחרות, או של נתונים בעלי מטרה תקפה אך מבנה בלתי ידוע – בשני המקרים הנתונים נחשבים ל"לא-מפוקחים" מאחר שהגדרתם לא שלמה.

הגדרה מעשית: נתונים לא-מפוקחים הם כאלה שנאספו בדרך כלל מהשטח ללא תכנון ומטרה אחידים. הם מכילים אוכלוסייה מגוונת של אירועים, "רעש", קשרים חבויים, כמויות גדולות של מישתנים, גורמים נעלמים, או דינמיקה לא-מוגדרת.

עד כמות מסוימת של נתונים, ניתן היה להתגבר על הסיבוכיות על ידי ניקוי וארגון הנתונים מחדש, כך שיתאימו לצורך הפקת מסקנות. אך בכמויות גדולות של נתונים, האפשרות לשחזר אותם באמצעות ניקוי וארגון - קטנה, והחריגות מהמודל הסטטיסטי הן רבות ומשמעותיות. כל אלה הביאו לפתיחתו של תחום פתרונות חדש.

התחום העוסק בפתרונות חדשים לנתונים לא-מפוקחים הוא כריית נתונים או data mining.

Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0