GPT-2

GPT-2
Generative Pre-trained Transformer 2
מפתח	OpenAI
מחזור חיים	14 בפברואר 2019 – הווה (7 שנים)
גרסה אחרונה	1558M (14 בפברואר 2019)
סוג רישיון	רישיון MIT
קוד מקור	https://github.com/openai/gpt-2

GPT-2 (ראשי תיבות של: Generative Pre-trained Transformer 2, בתרגום חופשי לעברית: טרנספורמר מאומן מראש בעל יכולת יצירה 2) הוא מודל שפה אוטורגרסיבי, המשתמש בלמידה עמוקה כדי לייצר טקסט דמוי אנושי (כפי שאדם מוכשר היה מייצר). המודל אומן על 8 מיליון עמודים באינטרנט.^[1] הוא יצא לאור באופן חלקי בפברואר 2019 ובאופן רשמי ב-5 בנובמבר 2019.^[2] המודל כלל 1.5 מיליארד פרמטרים של למידת מכונה.^[3]^[4]

GPT-2 יצא על ידי חברת OpenAI בתור גרסה חכמה יותר של ה-GPT-1, עם פי 10 יותר פרמטרים.^[1] בדומה לשאר המודלים של החברה, GPT-2 בנוי על מודל GPT הפועל באמצעות רשתות עצביות מלאכותיות (ANN) המבוססות על ארכיטקטורת הטרנספורמרים ולמידה עמוקה. לעומת ה-GPT-1, ה-GPT-2 עושה שימוש ב-Attention, טכניקה המשמשת לשיפור ביצועים באימון של רשתות נוירונים.^[5] בנוסף, המודל מציע יותר אפשרויות של התאמה אישית למשתמש.

אימון

ה-GPT-2 אומן על בסיס 8 מיליון עמודים באינטרנט אשר נסרקו באמצמעות זחלן רשת בשם WebText שפותח על ידי החברה. הזחלן סרק גם תגובות רדיט ממשתמשים עם יותר מ-3 נקודות קארמה, אך לא סרק עמודי ויקיפדיה בשביל למנוע התאמת יתר, מצב בו מודל מותאם יתר על המידה לאוסף מסוים של נתונים ועל כן מצליח פחות בביצוע תחזיות. המודל אומן על 32 יחידת עיבוד טנזוריות (TPU) במשך 168 שעות (7 ימים) והעלות הכוללת לאימונו הגיעה ל-43,000 דולר.^[6]^[1]

שימוש

בתחילת 2019, משחק הרפתקאות מבוסס טקסט AI Dungeon השתמש במודל כאשר יצא לאור. ביוני 2019, פורום רדיט חדש בשם r/SubSimulatorGPT2 נוצר, בו אנשים התנסו עם הבינה המלאכותית.^[7]

ראו גם

קישורים חיצוניים

אתר האינטרנט הרשמי של GPT-2

הערות שוליים

^ ^1.0 ^1.1 ^1.2 Language Models are Unsupervised Multitask Learners, OpenAI
↑ James Vincent, OpenAI has published the text-generating AI it said was too dangerous to share, The Verge, ‏2019-11-07 (באנגלית אמריקאית)
↑ GPT-2: 1.5B release, openai.com, ‏2024-01-16 (באנגלית אמריקאית)
↑ Better language models and their implications, openai.com, ‏2024-01-16 (באנגלית אמריקאית)
↑ Chris Olah, Shan Carter, Attention and Augmented Recurrent Neural Networks, Distill 1, 2016-09-08, עמ' e1 doi: 10.23915/distill.00001
↑ פוסט של אנדריי קרפטי, באתר טוויטר
↑ James Vincent, There’s a subreddit populated entirely by AI personifications of other subreddits, The Verge, ‏2019-06-06 (באנגלית אמריקאית)

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

GPT-243020581Q95726727

[:0-1] 1.0 ^1.1 ^1.2 Language Models are Unsupervised Multitask Learners, OpenAI

[2] James Vincent, OpenAI has published the text-generating AI it said was too dangerous to share, The Verge, ‏2019-11-07 (באנגלית אמריקאית)

[3] GPT-2: 1.5B release, openai.com, ‏2024-01-16 (באנגלית אמריקאית)

[4] Better language models and their implications, openai.com, ‏2024-01-16 (באנגלית אמריקאית)

[5] Chris Olah, Shan Carter, Attention and Augmented Recurrent Neural Networks, Distill 1, 2016-09-08, עמ' e1 doi: 10.23915/distill.00001

[6] פוסט של אנדריי קרפטי, באתר טוויטר

[7] James Vincent, There’s a subreddit populated entirely by AI personifications of other subreddits, The Verge, ‏2019-06-06 (באנגלית אמריקאית)

[1]

[2]

[3]

[4]

[5]

[6]

[7]