VGG

Visual Geometry Group (בראשי תיבות: VGG; בתרגום חופשי לעברית: קבוצת גאומטריות חזותית) היא ארכיטקטורת רשת קונבולוציה שנוצרה על ידיי קרן סימוניין ואנדרו זיסרמן מאוניברסיטת אוקספורד.

VGG התחרתה וזכתה בתחרות "אתגר זיהוי חזותי בקנה מידה גדול" של ImageNet ב-18 באוגוסט 2014^[1], המחקר המקורי קבע שהשכבות הרבות והפילטרים הקטנים הם אלו שסייעו לארכיטקטורה להגיע להישגיה הגבוהים^[2].

עיצוב המודל

במחקר המקורי^[3] הציגו 7 גרסאות של המודל וקראו להן A, A-LRN, B, C, D, E. כל הגרסאות מקבלות תמונות בגודל $224 \times 224$ ומסתיימות ב-max pooling ושלוש שכבות fully connected בגודל 4096, 4096 ו-1000 בהתאמה כאשר בשכבה האחרונה עושים שימוש בפונקציות אקטיבציה מסוג soft-max. במודלים B עד E מאתחלים את ארבע השכבות הראשונות ואת השלוש האחרונות במשקולות של מודל A מאומן כדי לקצר את זמני האימון. כל המודלים נבדקו לפי אחוז השגיאות שלהם בחמש התחזיות הכי סבירות שלהם (top-5 val. error) כלומר כמה פעמים התשובה לא הייתה בחמשת הניחושים הכי סבירים שלהם.

מודל A

מורכב מאחת עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל $3 \times 3$ בלבד. המודל זכה ל 10.4% top-5 val. error.

מודל A-LRN

כמו המודל הראשון רק עם שכבת LRN. המודל זכה ל 10.5% top-5 val. error.

מודל B

מורכב משלוש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל $3 \times 3$ בלבד. המודל זכה ל 9.9% top-5 val. error.

מודל C

מורכב משש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל $3 \times 3$ ו $1 \times 1$ בלבד. המודל זכה ל 8.8% top-5 val. error.

מודל (VGG16) D

מוכר גם כ-VGG16 המודל הפופולרי ביותר בגלל שילוב של עלות חישוב ותוצאות מורכב משש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל $3 \times 3$ בלבד. המודל זכה ל 8.1% top-5 val. error.

מודל (VGG19) E

מוכר גם כ-VGG19 המודל המדויק ביותר אך גם היקר יותר מבחינה חישובית. מורכב מתשע עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל $3 \times 3$ בלבד. המודל זכה ל 8.0% top-5 val. error.

השפעה

VGG הוא מודל חשוב שמומש בעוד הרבה מודלים אחרים כגון YOLO נכון ל-20 באפריל 2022 VGG צוטט כ-77062 פעמים.

הערות שוליים

↑ ILSVRC2014 Results, image-net.org
↑ Ken Chatfield, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman, Return of the Devil in the Details: Delving Deep into Convolutional Nets, Proceedings of the British Machine Vision Conference 2014, British Machine Vision Association, 2014 doi: 10.5244/c.28.6
↑ Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556 [cs], 2015-04-10

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

VGG38242877Q111680799

[1] ILSVRC2014 Results, image-net.org

[2] Ken Chatfield, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman, Return of the Devil in the Details: Delving Deep into Convolutional Nets, Proceedings of the British Machine Vision Conference 2014, British Machine Vision Association, 2014 doi: 10.5244/c.28.6

[3] Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556 [cs], 2015-04-10

[1]

[2]

[3]