Bag of words (ראייה ממוחשבת)

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

בתחום ראייה ממוחשבת, מודל bag-of-words (מודל BoW) מיושם בבעיות של סיווג תמונה, על ידי כך שמסתכלים על חלקים בתמונה כעל מילים ויזואליות. בסיווג מסמך, bag-of-words הוא וקטור דליל של ספירת מופעים של מילים. כלומר, היסטוגרמה דלילה על אוצר המילים הנתון (הנקרא מילון). בראייה ממוחשבת, bag-of-visual-words הוא וקטור דליל של ספירת מופעים של מילים ויזואליות מתוך אוצר מילים ויזואליות נתון.

ייצוג על בסיס מודל BoW

ייצוג תמונה המבוסס על מודל BoW

על מנת לייצג תמונה באמצעות מודל זה, ניתן להתייחס לתמונה כמו אל מסמך. באנלוגיה, יש צורך להגדיר מהן "מילים" בתמונות. הגדרת המילים והמילון תעשה באמצעות שלושה שלבים עיקריים: גילוי מאפיינים (ראייה ממוחשבת), תיאור מאפיינים ויצירת מילון באמצעות המתארים.

ייצוג מאפיינים

לאחר זיהוי מאפיינים, כל תמונה מיוצגת ע”י חלקים מקומיים באזור המאפיינים. שיטות לייצוג מאפיינים מתמודדות עם השאלה איך לייצג את המאפיינים באמצעות וקטורים מספריים. וקטורים אלו נקראים מתארים (feature descriptors). מתאר טוב הוא מתאר שמסוגל להתמודד עם שינויי עוצמה בתמונה, סיבוב, שינוי קנה מידה במידה מסוימת. אחד מהמתארים המפורסמים ביותר הוא SIFT Scale-invariant feature transform. SIFT מייצג כל אזור נבחר בתמונה כוקטור מספרי 128 ממדים.

לאחר שלב ייצוג המאפיינים, כל תמונה היא אוסף של וקטורים מאותו הממד (128 ל-SIFT), שבו הסדר של וקטורים שונים הוא חסר חשיבות.

יצירת המילון

השלב האחרון במודל BoW הוא להמיר את האזורים שיוצגו באמצעות וקטורים לאוסף של "מילות קוד" או "מילים ויזואליות" (מילים באנלוגיה למסמכי טקסט), שגם מייצר codebook (אנלוגיה למילה במילון). מילת קוד יכולה לייצג מספר אזורים דומים. שיטה פשוטה אחת לקבלת המילים הוויזואליות היא ביצוע אשכול k-means על כל הווקטורים. [5] מילות קוד לאחר מכן הן המרכזים של הצבירים שנלמדו. מספר האשכולות הוא מספר המילים במילון הוויזואלי (אנלוגיה לגודל של המילון בטקסט).

לפיכך, כל אזור מאפיין בתמונה ממופה למילת קוד מסוימת בתהליך האשכול, והתמונה יכולה להיות מיוצג על ידי היסטוגרמה של מילות הקוד. הסטוגרמה זו מיוצרת על ידי ספירה של המופעים של המילים הוויזואליות מתוך המילון, בתמונה.

לקריאה נוספת

  • Szeliski, Richard. Computer vision: algorithms and applications. Springer, 2010. פרק 14
  • Csurka, Gabriella, et al. "Visual categorization with bags of keypoints." Workshop on statistical learning in computer vision, ECCV. Vol. 1. 2004.
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0