AlphaZero

תבנית תוכנה ריקה AlphaZero היא תוכנת מחשב שפותחה על ידי חברת המחקר הבריטית DeepMind, המתמחה בבינה מלאכותית, במטרה להגיע לרמות חשיבה גבוהות במיוחד במשחקי שחמט, שוגי וגו. האלגוריתם של AlphaZero מבוסס על גישה דומה לזו של AlphaGo Zero.

ב-5 בדצמבר 2017 הציגה החברה את AlphaZero, שהצליחה תוך 24 שעות בלבד של אימון עצמי להגיע לרמת משחק על-אנושית (אנ') בשלושת המשחקים. היא גברה על תוכנות מהחזקות בעולם באותם זמנים – stockfish בשחמט, Elmo בשוגי, וגרסה מתקדמת של AlphaGo Zero בגו. בכל המקרים נעשה שימוש במעבדי TPU – יחידות עיבוד טנזורים ייעודיות שפותחו על ידי גוגל. היא הוכשרה באמצעות משחק עצמי בלבד, ללא גישה מוקדמת לספרי פתיחות או לשולחנות סיום. לצורך ההכשרה השתמשו החוקרים במקביל ב-5,000 מעבדי TPU מהדור הראשון ליצירת המשחקים, וב-64 מעבדים מהדור השני לצורך אימון רשתות נוירונים. לאחר ארבע שעות בלבד של אימון, העריכו החוקרים כי רמתה של AlphaZero בשחמט גבוהה מזו של Stockfish 8; לאחר תשע שעות אימון, נערך טורניר של 100 משחקים מול Stockfish 8, שבו ניצחה AlphaZero 28 פעמים, סיימה 72 פעמים בתיקו – ולא הפסידה כלל^[1]^[2]. התוכנה המאומנת הריצה את האלגוריתם שלה על מכונה אחת בלבד, שהכילה ארבעה מעבדי TPU.

המאמר המדעי של DeepMind אודות AlphaZero פורסם בכתב העת "Science" ב-7 בדצמבר 2018. בשנת 2019 פרסמה החברה מאמר נוסף שבו הוצג אלגוריתם מתקדם בשם MuZero, המסוגל להכליל את עקרונות AlphaZero גם למשחקים שבהם כללי המשחק אינם ידועים מראש, בהם משחקי לוח וגם משחקי וידאו ממשפחת אטארי^[3].

הערות שוליים

↑ Vincent, James (6 בדצמבר 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. {{cite news}}: (עזרה)
↑ Sarah Knapton; Leon Watson, ‏Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours, The Telegraph, 6 December 2017
↑ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790.

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

AlphaZero41362219Q44860007

[1] Vincent, James (6 בדצמבר 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. {{cite news}}: (עזרה)

[telegraph-2] Sarah Knapton; Leon Watson, ‏Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours, The Telegraph, 6 December 2017

[3] Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790.

[1]

[2]

[3]