VGG

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
קובץ:VGG architecture.png
תרשים המתאר את מבנה המודלים של VGG

Visual Geometry Groupראשי תיבות: VGG; בתרגום חופשי לעברית: קבוצת גיאומטריות חזותית) היא ארכיטקטורת רשת קונבולוציה שנוצרה על ידיי קרן סימוניין ואנדרו זיסרמן מאוניברסיטת אוקספורד.

VGG התחרתה וזכתה בתחרות "אתגר זיהוי חזותי בקנה מידה גדול" של ImageNet ב-18 באוגוסט 2014[1], המחקר המקורי קבע שהשכבות הרבות והפילטרים הקטנים הם אלו שסייעו לארכיטקטורה להגיע להישגיה הגבוהים[2].

עיצוב המודל

במחקר המקורי הציגו 7 גרסאות של המודל וקראו להן A, A-LRN, B, C, D, E. כל הגרסאות מקבלות תמונות בגודל ומסתיימות ב-max pooling ושלוש שכבות fully connected בגודל 4096, 4096 ו-1000 בהתאמה כאשר בשכבה האחרונה עושים שימוש בפונקציות אקטיבציה מסוג soft-max. במודלים B עד E מאתחלים את ארבע השכבות הראשונות ואת השלוש האחרונות במשקולות של מודל A מאומן כדיי לקצר את זמניי האימון. כל המודלים נבדקו לפי אחוז השגיאות שלהם בחמש התחזיות הכי סבירות שלהם (top-5 val. error) כלומר כמה פעמים התשובה לא הייתה בחמשת הניחושים הכי סבירים שלהם.

מודל A

מורכב מאחד עשר שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל בלבד. המודל זכה ל 10.4% top-5 val. error.

מודל A-LRN

כמו המודל הראשון רק עם שכבת LRN. המודל זכה ל 10.5% top-5 val. error.

מודל B

מורכב משלוש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל בלבד. המודל זכה ל 9.9% top-5 val. error.

מודל C

מורכב משש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל ו בלבד. המודל זכה ל 8.8% top-5 val. error.

מודל (VGG16) D

מוכר גם כ-VGG16 המודל הפופולרי ביותר בגלל שילוב של עלות חישוב ותוצאות מורכב משש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל בלבד. המודל זכה ל 8.1% top-5 val. error.

מודל (VGG19) E

מוכר גם כ-VGG19 המודל המדויק ביותר אך גם היקר יותר מבחינה חישובית. מורכב מתשע עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל בלבד. המודל זכה ל 8.0% top-5 val. error.

השפעה

VGG הוא מודל חשוב שמומש בעוד הרבה מודלים אחרים כגון YOLO נכון ל-20 באפריל 2022 VGG צוטט כ-77062 פעמים.

הערות שוליים

  1. ^ ILSVRC2014 Results, image-net.org
  2. ^ Ken Chatfield, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman, Return of the Devil in the Details: Delving Deep into Convolutional Nets, Proceedings of the British Machine Vision Conference 2014, British Machine Vision Association, 2014 doi: 10.5244/c.28.6
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0