Gradient descent

Gradient descent (בתרגום מילולי: מורד הגרדיאנט) היא שיטת אופטימיזציה איטרטיבית מסדר ראשון למציאת מינימום מקומי של פונקציה. בשיטה זו, נעשה צעד נגדי לגרדיאנט ביחס לנקודה הנוכחית.

לעומת זאת, אם נעשה צעדים בכיוון של הגרדיאנט נמצא את המקסימום המקומי של הפונקציה (אלגוריתם זה נקרא Gradient ascent, בתרגום מילולי: מעלה הגרדיאנט).

מבוא אינטואיטיבי

השיטה עובדת על שדה סקלרי של נתונים. שדה סקלרי הוא פונקציה המתאימה לכל נקודה במרחב ערך מספרי. המרחב יכול להיות בעל מספר רב של ממדים. דוגמה לשדה סקלרי בשני ממדים הוא מפה טופוגרפית, בה לכל נקודה על המפה הדו-ממדית משויך הגובה מעל פני הים.

לפי השיטה משתמשים בגרדיאנט, שהוא כלי מתמטי וקטורי, כלומר בעל כיוון, המאפשר למצוא את הכיוון אליו הנגזרת מקסימלית דהיינו הכיוון בו נמצא השינוי הדרסטי ביותר בין הנתונים סביב נקודה מסוימת. במפה הטופוגרפית יהווה הגרדיאנט הכיוון בו השיפוע מקסימלי, והאלגוריתם אמור להתכנס למינימום מקומי של השדה הסקלרי .

השיטה עובדת כך שבכל שלב של ההפעלה היא מתקדמת לכיוון הפוך לגרדיאנט (כיוון שהגרדיאנט מראה את השיפוע כלפי מעלה) כך שבכל שלב יש התקדמות נגד השיפוע המקסימלי עד שמגיעים לנקודה מספיק נמוכה המוגדרת בתנאי העצירה. דבר זה דומה לאדם העומד בנקודה על המפה הטופוגרפית אך ישנו ערפל סמיך אשר עוצר בעדו. לכן באפשרותו לבדוק רק את סביבתו הקרובה. הכיוון שבו הוא יורד יהיה הכיוון בו המדרון תלול ביותר.

תיאור מתמטי

Gradient descent מבוססת על ההבחנה שאם פונקציה מרובת משתנים $F (𝐱)$ מוגדרת ודיפרנציאבילית בסמוך לנקודה $𝐚$ , אז $F (𝐱)$ יורדת בצורה התלולה ביותר כשהולכים מ $𝐚$ בכיוון נגדי לגרדיאנט של $F$ ב- $𝐚$ , $- \nabla F (𝐚)$ . מכאן שאם

𝐚_{n + 1} = 𝐚_{n} - γ \nabla F (𝐚_{n})

עבור $γ$ קטן דיו, אז $F (a_{𝐧}) \geq F (a_{𝐧 + 𝟏})$ . במילים אחרות, הביטוי $γ \nabla F (𝐚)$ מוחסר מ- $𝐚$ כיוון שרוצים לזוז נגד כיוון הגרדיאנט, מטה לכיוון המינימום. בהתבסס על הבחנה זו, ניתן לנחש נקודה ראשונית $𝐱_{0}$ כנקודת מינימום של $F$ , ולקבל את הסדרה $𝐱_{0}, 𝐱_{1}, 𝐱_{2}, \dots$ כך ש:

𝐱_{n + 1} = 𝐱_{n} - γ_{n} \nabla F (𝐱_{n}), n \geq 0 .

שבהתבסס על ההבחנה:

F (𝐱_{0}) \geq F (𝐱_{1}) \geq F (𝐱_{2}) \geq \dots,

הסדרה $(𝐱_{n})$ יכולה להתכנס לנקודת המינימום המבוקשת. גודל הצעד $γ$ יכול להשתנות בכל איטרציה. יחד עם הנחות מסוימות על הפונקציה $F$ (לדוגמה, $F$ קמורה ו $\nabla F$ ליפשיצית) ובחירות מתאימות של $γ$ (למשל באמצעות line search שמקיים את תנאי וולף או שיטת ברזילאי-בורווין להלן),

γ_{n} = \frac{(𝐱_{n} - 𝐱_{n - 1})^{T} [\nabla F (𝐱_{n}) - \nabla F (𝐱_{n - 1})]}{| | \nabla F (𝐱_{n}) - \nabla F (𝐱_{n - 1}) | |^{2}}

מתכנסת הסדרה למינימום מקומי. כאשר הפונקציה $F$ היא קמורה, ניתן להשתמש ב-gradient descent למציאת פתרון גלובלי.

ב-1964 הציג בוריס תאודורוביץ' פוליאק הרחבה לשיטה שנקראת שיטת המומנטום אשר משפרת את קצב ההתכנסות.^[1] ב-1983 הציג יורי נסטרוב את שיטת הגרדיאנט המואץ (Nesterov’s Accelerated Gradient ולעיתים בקיצור NAG), שיכולה להשיג קצב התכנסות טוב יותר.^[2] גרסה נוספת של Gradient descent מבוססת על הערכה סטוכסטית של הגרדיאנט וידועה כ-Stochastic gradient descent.

אלגוריתם

להלן קוד פייתון של האלגוריתם gradient descent:

# x0 - initial guess
# df - gradient of function
def gradient_descent(x0, df):
	cur_x = x0 # The algorithm starts at x0
	gamma = 0.01 # step size multiplier
	precision = 0.00001
	previous_step_size = cur_x
	while previous_step_size > precision:
 		prev_x = cur_x
 		cur_x += -gamma * df(prev_x)
 		previous_step_size = abs(cur_x - prev_x)
	return cur_x