Gradient descent

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
תרשים של אופטימיזציה איטרטיבית באמצעות Gradient descent. על פי הגרדיאנט נקבעת נקודת השערוך הבאה כשבכל שלב מתקדמים לכיוון נקודת האופטימום. הקווים הכחולים הם עקומת גובה קו. סדרת הנקודות הנבחרות x מצוינות כשחץ אדום מסמן את כיוון ההתקדמות (הכיוון הנגדי לגרדיאנט)

Gradient descent (בתרגום מילולי: מורד הגרדיאנט) היא שיטת אופטימיזציה איטרטיבית מסדר ראשון למציאת מינימום מקומי של פונקציה. בשיטה זו, נעשה צעד נגדי לגרדיאנט ביחס לנקודה הנוכחית. לעומת זאת, אם נעשה צעדים בכיוון של הגרדיאנט נמצא את המקסימום המקומי של הפונקציה (אלגוריתם זה נקרא Gradient ascent, בתרגום מילולי: מעלה הגרדיאנט).

מבוא אינטואיטיבי

השיטה עובדת על שדה סקלרי של נתונים. שדה סקלרי הוא מרחב בו כל נקודה מורכבת מכמה מספרים המייצגים נתונים שונים. מרחב זה יכול להיות בעל מספר רב של ממדים כך שכל מימד מייצג קטגוריה של ערכים. דוגמה לשדה סקלרי בעל שלושה ממדים הוא מפה טופוגרפית בה יש אורך, רוחב וגובה. לפי השיטה משתמשים בגרדיאנט, שהוא כלי מתמטי וקטורי, כלומר בעל כיוון, המאפשר למצוא את הכיוון אליו הנגזרת מקסימלית דהיינו הכיוון בו נמצא השינוי הדרסטי ביותר בין הנתונים סביב נקודה מסוימת. במפה הטופוגרפית יהווה הגרדיאנט את הכיוון בו זווית המדרון מקסימלית, והאלגוריתם מוצא את הדרך האופטימלית להגיע למינימום בשדה הסקלרי, שהוא בהקבלה הנקודה הנמוכה ביותר במפה.

השיטה עובדת כך שבכל שלב של ההפעלה היא מתקדמת לכיוון הפוך לגרדיאנט (כיוון שהגרדיאנט מראה את השיפוע כלפי מעלה) כך שבכל שלב יש התקדמות נגד השיפוע המקסימלי עד שמגיעים לנקודה מספיק נמוכה המוגדרת בתנאי העצירה. דבר זה דומה לאדם העומד בנקודה על המפה הטופוגרפית אך ישנו ערפל סמיך אשר עוצר בעדו. לכן באפשרותו לבדוק רק בסביבה הקרובה לו היכן הזווית הכי תלולה של המדרון ודרכה הוא יורד.

תיאור מתמטי

Gradient descent מבוססת על ההבחנה שאם פונקציה מרובת משתנים מוגדרת ודיפרנציאבילית בסמוך לנקודה , אז יורדת בצורה התלולה ביותר כשהולכים מ בכיוון נגדי לגרדיאנט של ב-, . מכאן שאם

עבור קטן דיו, אז . במילים אחרות, הביטוי מוחסר מ- כיוון שרוצים לזוז נגד כיוון הגרדיאנט, מטה לכיוון המינימום. בהתבסס על הבחנה זו, ניתן לנחש נקודה ראשונית כנקודת מינימום של , ולקבל את הסדרה כך ש:

שבהתבסס על ההבחנה:

הסדרה יכולה להתכנס לנקודת המינימום המבוקשת. גודל הצעד יכול להשתנות בכל איטרציה. יחד עם הנחות מסוימות על הפונקציה (לדוגמה, קמורה ו ליפשיצית) ובחירות מתאימות של (למשל באמצעות line search שמקיים את תנאי וולף או שיטת ברזילאי-בורווין להלן),

מתכנסת הסדרה למינימום מקומי. כאשר הפונקציה היא קמורה, ניתן להשתמש ב-gradient descent למציאת פתרון גלובלי.

ב-1964 הציג בוריס תאודורוביץ' פוליאק הרחבה לשיטה שנקראת שיטת המומנטום אשר משפרת את קצב ההתכנסות.[1] ב-1983 הציג יורי נסטרוב את שיטת הגרדיאנט המואץ (Nesterov’s Accelerated Gradient ולעיתים בקיצור NAG), שיכולה להשיג קצב התכנסות טוב יותר.[2] גרסה נוספת של Gradient descent מבוססת על הערכה סטוכסטית של הגרדיאנט וידועה כ- Stochastic gradient descent.

אלגוריתם

להלן קוד פייתון של האלגוריתם gradient descent:

# x0 - initial guess
# df - gradient of function
def gradient_descent(x0, df):
	cur_x = x0 # The algorithm starts at x0
	gamma = 0.01 # step size multiplier
	precision = 0.00001
	previous_step_size = cur_x
	while previous_step_size > precision:
 		prev_x = cur_x
 		cur_x += -gamma * df(prev_x)
 		previous_step_size = abs(cur_x - prev_x)
	return cur_x

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא Gradient descent בוויקישיתוף

הערות שוליים

Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0