לדלג לתוכן

סטטיסטיקה מרחבית

מתוך המכלול, האנציקלופדיה היהודית
ניתוח כמותני מבוסס מורן I מקומי, מדד מקומי לשונות ודמיון בין אזורים, המראה שפיזור העוני בארצות הברית אינו אקראי. בלבן ניתן לראות אזורים שלא ניתן לומר שהם חורגים מפיזור אקראי, בוורוד מקבצים חריגים מהמצופה תחת פיזור אקראי של אחוז עוני גבוה, ובתכלת מקבצים חריגים של אחוז עוני נמוך.

סטטיסטיקה מרחביתאנגלית: Spatial statistics) היא תחום בסטטיסטיקה העוסק בנתונים מרחביים, כלומר נתונים המכילים מידע שממוקם במרחב. למשל, מיקום התרחשויות אירועים או מדידות ממקומות שונים במרחב. נתונים מרחביים יכולים להכיל גם מידע על יחסים במרחב כמו מרחק תאונת דרכים מצומת.

תהליכים נקודתיים

ענף מרכזי בתחום הוא מידול תהליכים נקודתיים (Point Processes) המפוזרים במרחב. כלומר מידול של תהליכים אקראיים בהם תוצר התהליך הוא סט של קואורדינטות גאוגרפיות המציינות היארעות של התהליך במקומות ספציפיים במרחב.[1] בכלל זאת, פותחו כלים לאמדן הנטייה הכללית של האירועים להיות מקובצים או מפוזרים ביחס למצופה מפיזור מרחבי אקראי לחלוטין (CSR, Complete spatial randomness (אנ')). כלי פשוט בהקשר זה הוא פונקציית התפלגות מרחק השכן הקרוב G(r) (nearest neighbour distance distribution function), המתארת את אחוז האירועים שנמצאים זה מזה במרחק הקטן מ-r, עבור ערכים שונים של r. מתמטית, אירועים הנוצרים על פי תהליך פואסון (Poisson process) מבטאים תכונות של CSR. לפיכך, במקרים רבים תהליך זה משמש כקו-בסיס (baseline) אליו משווים את מאפייני התהליך הנמדד בפועל. לדוגמה, פונקציית G(r) שעולה בקצב מהיר יותר מזה של תהליך פואסון תתאר תהליך נקודתי מקובץ ביחס לפיזור אקראי, למשל תהליך תומאס (Thomas Process) המתאר נקודות המקובצות סביב נקודות אב או תהליך קוקס או תהליך פואסון בעל סטוכסטיות כפולה[2] (Cox process) המתאר קיבוץ הנובע מפיזור אקראי של העוצמה במרחב, פיזור שלרוב מיוחס להשפעת משתנים שלא נמדדו במחקר אך משפיעים על עוצמת הופעת האירועים. באופן דומה, פונקציה שעולה בקצב איטי יותר מזה של תהליך פואסון תתאר תהליך נקודתי מפוזר ביתר ביחס לפיזור אקראי, למשל תהליך ליבה קשה (Hard core process) המתאר נקודות שמרחקן זו מזו תמיד עולה על ערך קבוע המאפיין את התהליך.

תת-תחום של מידול תהליכים נקודתיים הוא מידול תהליכים נקודתיים מסומנים (Marked Point Processes), בתהליכים אלו תוצר התהליך מכיל מלבד סט קואורדינטות גאוגרפיות גם משתנה אחד (או יותר) עבור כל היארעות. משתנה זה יכול להיות קטגוריאלי, אך גם אורדינאלי או רציף. לדוגמה תהליך נקודתי מסומן המתאר הופעת תאונות דרכים במרחב, יכול להכיל עבור כל תאונה סימון אורדינלי של חומרת התאונה לצד סימון קטגוריאלי המתאר את סוגי הרכבים המעורבים בתאונה.

כמו כן, אפיק מחקרי פורה התמקד באמדן התלות של התהליך במשתנים מנבאים. דרך פשוטה לחקור תלות שכזו היא לחלק את שטח המחקר למספר חלקים בעלי שטח שווה, לפי משתנה מנבא מסוים, ולספור את כמות האירועים שנפלו בתוך כל אחד מהחלקים. ניתן לבחון סטטיסטית את התלות באמצעות מבחן מבחן כי בריבוע. באופן כללי, מודל המניח כי ישנה תלות בין מספר האירועים ליחידת שטח λ (נקראת ה-Intensity או העוצמה של התהליך) לבין משתנה מנבא מסוים, ניתנת לתיאור באמצעות המשוואה הבאה: λ(u)=ρ(Z(u)), כאשר Z(u) מייצג את ערך המשתנה Zבמיקום u במרחב, ו-ρ היא פונקציה המקבלת ערך של המשתנה Z ומחזירה את העוצמה הצפויה λ. באקולוגיה, כאשר התהליך האקראי מייצג מיקום של פרטי אורגניזם, הפונקציה ρ נקראת פונקציית בחירת משאבים (אנ'). מספר אומדנים לפונקציה זו פותחו באופן המאפשר מדידה א-פרמטרית של ρ, תוך מציאת יחסים בין ערכי Z בכלל שטח המחקר, לבין ערכי Z במיקומים בהם נמצאים אירועים של התהליך.[3] תהליך שתלוי בערכי Z נקרא תהליך לא הומוגני (inhomogeneous process), מאחר שהעוצמה שלו משתנה כתלות ב-u ואינה נשארת קבועה במרחב.

תהליכים נקודתיים על רשת

תת-תחום חשוב של חקר תהליכים נקודתיים הוא מידול תהליכים המתרחשים מעל רשת. תהליכים רבים כמו תאונות דרכים, זרימת נחלים[4] או מיקומי תעלות יונים על גבי דנדריטים במערכת העצבים[5] אינם יכולים להתרחש בכל מקום, אלא הם מוגבלים לאזורים הניתנים לתיאור כרשת. לתהליכים אלו יש צורך בהתאמת כלים ייחודיים מאחר שמרחק אווירי (מרחק אוקלידי - Euclidean distance), המשמש רבות במידול תהליכים נקודתיים כלליים, מתעלם מצורת הרשת ועלול להוביל להטיה משמעותית באמידת התהליך.[6] למשל, במקומות בהם הרשת צפופה ניתוח מבוסס מרחק אוקלידי עלול להצביע על התקבצות של היארעויות, בהשוואה לאזורים בהם הרשת דלילה, גם כאשר התהליך יוצר אירועים שמפוזרים באופן אחיד על הרשת.[6] לכן, יש שימוש במקרים אלו בהגדרות אחרות למרחק בין נקודות כמו הדרך הקצרה ביותר, הגדרה אשר שימושיה פותחו רבות על ידי החוקר היפני אטסויוקי אוקבי (Atsuyuki Okabe). על בסיס הגדרות אלו פותחו מדדים לפיזור אירועים על הרשת[7].

ענפי מחקר נוספים

ענפים נוספים בתחום עוסקים בדגימה יעילה של המרחב ובניבוי מאפיינים מרחביים בין דגימות, באמצעות שיטות לאינטרפולציה מרחבית כמו קריגינג (Kriging),[8], במידול פרמטרים לא נקודתיים המשתנים בין אזורים, כמו שינויים בהרכב כימי של הקרקע אח רמות זיהום אוויר. עקוצה חשובה המשמש רבות בהקשרים אלו נקראת וריוגרמה (variogram). הוריוגרמה מתארת את התלות המרחבית בין ערכי דגימות במרחקים שונים זה מזה. כמו כן, פעמים רבות החוקרים מעוניינים באמידה של השונות או הדמיון בין אזורים שונים באמצעות מדדים מסכמים כמו מורן I.[9] בהקשר זה של מדידות מקובצות לאזורים פותחו כלים לחלוקה של המרחב, ואופיינו השפעות שונות של צורת החלוקה על תוצאות המידול.[10][11] לדוגמה ניתן לחלק את המרחב הרלוונטי למחקר מסוים לריבועים בעלי גודל אחיד, או בעלי אחידות במשתנה מסוים כמו צפיפות אוכלוסין. מנגד, ניתן להשתמש בגבולות גיאורגפיים כמו שכונות, שכונות על ואף לערים שלמות ולמדינות. שיטת חלוקה חשובה היא דיאגרמת וורונוי המשמשת כשיטת חלוקה מבוססת מידע (Data driven) בעלת יישומים רבים[12]. בשיטה זו, מוגדרים שטחים סביב נקודות במרחב כך שכל מקום בשטח קרוב לנקודה המגדירה את השטח, יותר מאשר לכל נקודה מגדירה אחרת.

הערות שוליים

  1. Baddeley, A., Rubak, E., & Turner, R. (2016). Spatial point patterns: methodology and applications with R (Vol. 1). Boca Raton: CRC press
  2. נקרא על שם הסטטיסטיקאי הבריטי סר דויד קוקס
    .Cox, D. R (1955) Some statistical methods connected with series of events. Journal of the Royal Statistical Society: Series B (Methodological), 17(2), 129-157.
  3. Baddeley, A., Chang, Y. M., Song, Y., & Turner, R. (2012). Nonparametric estimation of the dependence of a spatial point process on spatial covariates. Statistics and its interface, 5(2), 221-236.
  4. Cressie, N., Frey, J., Harch, B., & Smith, M. (2006). Spatial prediction on a river network. Journal of agricultural, biological, and environmental statistics, 11, 127-150.
  5. Baddeley, Adrian, Aruna Jammalamadaka, and Gopalan Nair. "Multitype point process analysis of spines on the dendrite network of a neuron." Journal of the Royal Statistical Society Series C: Applied Statistics 63.5 (2014): 673–694
  6. ^ 6.0 6.1 Baddeley, A., Nair, G., Rakshit, S., McSwiggan, G., & Davies, T. M. (2021). Analysing point patterns on networks—A review. Spatial Statistics, 42, 100435
  7. Okabe, A., & Yamada, I. (2001). The K‐function method on a network and its computational implementation. Geographical analysis, 33(3), 271-290.
  8. Myers, D. E. (1994). Spatial interpolation: an overview. Geoderma, 62(1-3), 17–28
  9. Moran, P., 1950. Notes on continuous stochastic phenomena. Biometrika 37, 17–23
  10. Ziakopoulos, A., & Yannis, G. (2020). A review of spatial approaches in road safety. Accident Analysis & Prevention, 135, 105323
  11. Xu, P., Huang, H., Dong, N., & Abdel-Aty, M. (2014). Sensitivity analysis in the context of regional safety modeling: Identifying and assessing the modifiable areal unit problem. Accident Analysis & Prevention, 70, 110-120.
  12. Okabe, A., Boots, B., Sugihara, K., & Chiu, S. N. (2009). Spatial tessellations: concepts and applications of Voronoi diagrams.

סטטיסטיקה מרחבית41766370Q117467429