זיהוי עצמים

זיהוי עצמים או זיהוי אובייקטים הוא טכנולוגיה בראייה ממוחשבת ועיבוד תמונה העוסקת בזיהוי אוטומטי של מיקום וסיווג של עצמים בתמונה. אלגוריתם זיהוי עצמים יקבל כקלט תמונות או וידאו, ויוציא כפלט את המלבנים החוסמים של העצמים בתמונה, ולכל אחד מהם את הסיווג למחלקה, כגון: מכוניות, כלבים, אנשים^[1]. זיהוי עצמים לרוב נעשה בעזרת אלגוריתם בשפת פייתון או בשפת ++C.

כבר בשנת 1988 הייתה קיימת במערכת הבנקאות יכולת זיהוי צ'קים בעזרת ראייה ממוחשבת, אך לאורך השנים התחום התפתח והגיע לביצועים מרשימים במקרים מאתגרים, ביניהם: זיהוי תמרורים והולכי רגל לצורך נהיגה אוטונומית, זיהוי פנים מזוויות שונות בתמונות ברשת חברתית, זיהוי נגעים ומחלות בתמונות MRI.

מודלים לזיהוי עצמים

תמונה מיוצגת באופן דיגיטלי בעזרת פיקסלים שלכל אחד מהם ערך המעיד על הצבע שלו. כלומר, תמונה היא למעשה מטריצה של ערכים. עצם בתמונה מורכב מצורות מסוימות, צבעים וטקסטורה שמפרידים אותו מהרקע. על מנת שאלגוריתם יוכל לזהות עצם מסוים בתוך המטריצה של ערכי הפיקסלים, עליו לזהות את המאפיינים הייחודיים של העצם הזה המפרידים אותו מהרקע (מציאת מיקום העצם), וכן המזהים אותו ברמת סמך גבוהה כשייך לסוג מסוים של מחלקת עצמים (מציאת סיווג של העצם).

זיהוי עצמים במודלים קלאסיים

מודלים של ראייה ממוחשבת שאינם מבוססי רשתות נוירונים מלאכותיות, מתבססים על שלב ראשון של מציאת מאפיינים בתמונה ושלב שני של סיווג. אלגוריתם נפוץ לחילוץ מאפיינים מתמונה הוא אלגוריתם SIFT^[2] שפותח בשנת 1999. יתרונו העיקרי של אלגוריתם SIFT הוא בחילוץ מאפיינים שהם בלתי תלויים בקנה המידה של התמונה, בסיבובים ובשינוי בהירות של התמונה.

דרך נוספת לחלץ מאפיינים מתמונה היא התמרת האף. אלגוריתם האף בתצורתו הראשונית עסק בזיהוי של קווים בתמונה, אך מאוחר יותר הורחב גם לזיהוי מיקומים של צורות, ובפרט מעגלים ואליפסות.

חילוץ מאפיינים מתמונה יכול להתבצע גם על ידי שימוש בגרדיאנטים, כלומר פעולת נגזרת על התמונה, המאפשרת למצוא שפות חדות המבדילות בין עצמים. אלגוריתם נפוץ בשיטה זו הוא אלגוריתם HOG (Histogram of oriented gradients)^[3], היוצר היסטוגרמה של מאפיינים של גרדיאנטים מכוונים.

מאפייני האר לזיהוי פנים המתארים בקירוב את גשר האף

בשנת 2001 פותח אלגוריתם ויולה ג'ונס עבור משימת זיהוי פנים. האלגוריתם, שהגיע לביצועים וזמני ריצה מרשימים, מבוסס על מאפייני האר (באנגלית Haar feature classifiers) ומשתמש ביכולות למידת מכונה. אלגוריתם ויולה ג'ונס מכיל כ-50 אלף פרמטרים בלבד, מה שהופך אותו לשימושי עד היום במקרים בהם כח החישוב נמוך.

דרכים נוספות לזיהוי עצמים בתמונה, ובפרט ברצף של תמונות או בווידאו, מתבססות על תנועת העצמים. בשיטות אלו יש צורך לבצע חיזוי סטטיסטי של מיקום העצם מהתמונה הקודמת בתמונה הבאה, למשל בעזרת במסנן קלמן. שיטות גילוי תנועה מאפשרות שימוש במידע זמני על העצם ובכך יכולות להגיע לרמת סמך גבוהה בזיהוי העצם בתמונה. בנוסף, לא נדרשת כמות גדולה של פיקסלים המאפיינים את העצם על מנת לזהות את מיקומו. החיסרון של שיטות גילוי תנועה הוא שהן מאפשרות למצוא עצמים נעים בלבד.

זיהוי עצמים במודלים מבוססי רשתות נוירונים

רשת נוירונים היא אלגוריתם בינה מלאכותית, המבוסס על יכולת למידה של המידע ואופטימיזציה עבור משימה מסוימת. תהליך הפיתוח של רשת נוירונים מבוסס על שלב אימון, בו המודל לומד את המידע הרלוונטי ומבצע התאמה של הערכים שלו עבור הצלחה במשימה, ולאחריו שלב מבחן בו המודל מקבל מידע שלא ראה באימון ועליו להצליח במשימה. על מנת לאמן רשת עצבית על המשימה של זיהוי עצמים בתמונה, נדרש מאגר מידע מתוייג. התיוג הוא סימון, ידני או באוטומציה, של מלבן חוסם סביב העצמים בתמונה וכן הגדרת מחלקת סיווג לכל עצם.

כאשר המידע בקלט של הרשת הוא מטריצה של תמונה, נהוג להשתמש ברשתות קונבולוציה, כלומר רשתות נוירונים שהשכבות שלהן מכילות פעולות מתמטיות של קונבולוציה על פיקסלים בתמונה. החל משנת 1980 יצאו מספר מודלים של רשתות קונבולוציות לזיהוי עצמים בתמונה. תחילה היו אלו מודלים שיכלו לזהות את הסיווג של עצמים מסוימים בתמונה קטנה המכילה עצם יחיד, כדוגמת זיהוי ספרות שנכתבו בכתב יד. לאורך השנים התחום התקדם והתפתח בשני מישורים שאיפשרו לרשתות הקונבולוציה להגיע לביצועים פורצי דרך:

איסוף תמונות ויצירת מאגרי מידע גדולים ומפותחים על מנת לאמן בינה מלאכותית מסוג זה. מאגר מידע משמעותי עבור זיהוי עצמים הוא MS COCO^[4], של חברת מיקרוסופט, המכיל 1.5 מיליון עצמים המחולקים ל-80 מחלקות סיווג שונות.
פיתוח יכולות חומרה חזקות על מנת לאמן רשתות קונבולוציה. כיום מרבית רשתות הנוירונים מתבססות על מעבדים גרפים.

רשתות קונבולוציה לזיהוי עצמים מתחלקות לשתי ארכיטקטורות עיקריות. הסוג הראשון הוא רשתות מבוססות שני שלבים. בשלב הראשון הרשת מבצעת זיהוי מיקומים בעלי פוטנציאל להיות עצמים בתמונה (לוקאליזציה) ובשלב השני הרשת עוברת על המיקומים ועבור כל אחד מהם מבצעת סיווג למחלקת עצמים. רשת נפוצה בארכיטקטורת שני שלבים היא רשת Faster R-CNN ^[5].

הסוג השני של ארכיטקטורת רשתות לזיהוי עצמים הוא מבוסס שלב אחד בלבד ובו מתבצע גם זיהוי המיקום וגם הסיווג למחלקה. הרשת שסללה את הדרך לארכיטקטורה זו היא רשת YOLO (You Only Look Once) ^[6].

ראו גם

הערות שוליים

↑ S. Dasiopoulou, V. Mezaris, I. Kompatsiaris, V.-K. Papastathis, Knowledge-assisted semantic video object detection, IEEE Transactions on Circuits and Systems for Video Technology 15, 2005-10, עמ' 1210–1224 doi: 10.1109/tcsvt.2005.854238
↑ David G. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 2004
↑ N. Dalal, B. Triggs, Histograms of Oriented Gradients for Human Detection, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), IEEE doi: 10.1109/cvpr.2005.177
↑ COCO - Common Objects in Context, cocodataset.org
↑ Shaoqing Ren et al, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Neural Information Processing Systems 28 (NIPS), 2015
↑ Joseph Redmon et al, You Only Look Once: Unified, Real-Time Object Detection, IEEE / CVF Computer Vision and Pattern Recognition, 2016

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

זיהוי עצמים40305176Q3045304

[1] S. Dasiopoulou, V. Mezaris, I. Kompatsiaris, V.-K. Papastathis, Knowledge-assisted semantic video object detection, IEEE Transactions on Circuits and Systems for Video Technology 15, 2005-10, עמ' 1210–1224 doi: 10.1109/tcsvt.2005.854238

[2] David G. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 2004

[3] N. Dalal, B. Triggs, Histograms of Oriented Gradients for Human Detection, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), IEEE doi: 10.1109/cvpr.2005.177

[4] COCO - Common Objects in Context, cocodataset.org

[5] Shaoqing Ren et al, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Neural Information Processing Systems 28 (NIPS), 2015

[6] Joseph Redmon et al, You Only Look Once: Unified, Real-Time Object Detection, IEEE / CVF Computer Vision and Pattern Recognition, 2016

[1]

[2]

[3]

[4]

[5]

[6]

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • רפש של בינה מלאכותית • תור הזהב של הבינה המלאכותית • אוריינות AI • סוכן תבוני • AI-שלמות • אסדרת בינה מלאכותית (בישראל) • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית • זיהוי תוכן שנוצר על ידי בינה מלאכותית • Attention Is All You Need
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת (מוזיקה) • אומנות בינה מלאכותית • בינה מלאכותית כללית (AGI)
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • יער אקראי • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • פונקציית אקטיבציה • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות • הזיות
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini • קלוד •‏ Perplexity •‏ SearchGPT •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה • מיקרוסופט קופיילוט • Qwen
סוגיות בטיחות בינה מלאכותית	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה (אנ') • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית • השתלטות הבינה המלאכותית • המכתב הפתוח על בינה מלאכותית (2015) • הסתברות לאבדון
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית