Gradient Descent
(Gradient : ±â¿ï±â, °æ»çµµ, ±â¿ï¾îÁø, ¾ð´ö, ºñÅ» descent : °ÇÏ, Ç϶ô, ÇÏ»ê )
¸¹Àº ÃÖÀûÈ (Optimization) ¹æ¹ýµé (¿¹¸¦µé¸é
¿ªÀüÆÄ (Back-propagation), line search, quasi-Newton °°Àº °Í)
ÀÌ ±â¿ï±â (gradient) ÀÇ °è»ê¿¡ ±âÃÊÇÑ´Ù. ÇǵåÆ÷¿öµå
(Feedforward) ½Å°æ¸Á (Neural
Network) ÀÇ °æ¿ì¿¡´Â ÀÌ ±â¿ï±â ¹æ¹ýÀÌ
½Å°æ¸Á Ãâ·Â (thresholding ÀÌÀü¿¡) ¿¡ °üÇÏ¿© ¿¡·¯ÇÔ¼ö¸¦ ºÎºÐÀûÀ¸·Î À¯µµÇÏ´Â °æ¿ì¿¡
Æ÷ÇԵȴÙ. ÀÌ·¯ÇÑ À¯µµÀÇ °á°ú¹° (º¸Åë ·Î Ç¥ÇöµÊ) Àº ¿ªÀüÆÄ (Back-propagation) ¾Ë°í¸®ÁòÀÇ
±âÃʸ¦ ÀÌ·é´Ù.
Wikipedia : Gradient descent : ±â¿ï±â Çϰ (Gradient descent) ´Â ÇöÀçÀÇ À§Ä¡¿¡¼ ±â¿ï±â (¶Ç´Â ±Ù»ç ±â¿ï±â, approximate gradient) ¿¡ ºñ·ÊÇØ¼ ´Ü°èÀûÀ¸·Î ÇÔ¼öÀÇ ÃÖ¼Ò ¶Ç´Â ÃÖ´ë¿¡ Á¢±ÙÇÏ´Â Á¡±ÙÀûÀÎ ¾ð´ö¿À¸£±â (Hill Climbing) ¾Ë°í¸®Áò ÀÌ´Ù. Áï ±â¿ï±â°¡ À½¼ö°ªÀ» °¡Áø´Ù¸é local minimum ¿¡ Á¢±ÙÇÏ¿© °¥°ÍÀÌ´Ù. ±â°è ÇнÀ (Machine Learning) ¿¡¼ ÈçÈ÷ »ç¿ëµÇ´Â gradient descent ´Â Å©°Ô µÎ°¡Áö ÇüÅÂ, Áï batch ¿Í on-line ÀÌ ÀÖ´Ù.
batch gradient descent ¿¡¼, true gradient ´Â ¸ðµ¨ÀÇ ÆÄ¶ó¹ÌÅ͸¦ ¾÷µ¥ÀÌÆ®Çϱâ À§ÇØ »ç¿ëµÈ´Ù. true gradient ´Â °¢°¢ÀÇ ÈÆ·Ã¿¹°¡ ³ªÅ¸³»´Â ±â¿ï±âÀÇ ÇÕÀÌ´Ù. ±×·¯¹Ç·Î batch gradient descent ´Â ÈÆ·Ã ÁýÇÕÀ» ÅëÇØ Çѹø¿¡ (one sweep) Æò°¡µÈ ÈÄ¿¡ ÆÄ¶ó¹ÌÅ͵éÀÌ º¯ÈµÈ´Ù.
on-line gradient descent ¿¡¼, true gradient ´Â ´Ü ÇϳªÀÇ ÈÆ·Ã¿¹¿¡ ´ëÇØ¼¸¸ Æò°¡ÇÏ´Â ºñ¿ëÇÔ¼öÀÇ ±â¿ï±â°¡ ±Ù»ç ±â¿ï±â°¡ µÈ´Ù. µû¶ó¼ ¸ðµ¨ÀÇ ÆÄ¶ó¹ÌÅÍ´Â °¢ ÈÆ·Ã¿¹°¡ Æò°¡µÈ ÀÌÈÄ¿¡ ¾÷µ¥ÀÌÆ® µÈ´Ù. µ¥ÀÌÅÍ ÁýÇÕÀÌ Å« °æ¿ì¿¡ on-line gradient descent ´Â batch gradient descent º¸´Ù ´õ ºü¸£°Ô µÉ ¼ö ÀÖ´Ù.
µÎ°¡Áö ÇüÅ »çÀÌÀÇ ÀýÃæÀ¸·Î¼ mini-batches °¡ ÀÖ´Ù. ±× °æ¿ì true gradient ´Â ¼Ò¼öÀÇ ÈÆ·Ã¿¹ÀÇ ÇÕÀ¸·Î½á ±Ù»ç ±â¿ï±â°¡ ±¸ÇØÁø´Ù.
on-line gradient descent ´Â È®·ü±Ù»ç (stochastic approximation) ÀÇ ÇÑ ÇüÅÂÀÌ´Ù. È®·ü±Ù»ç ÀÌ·ÐÀº on-line gradient descent °¡ ¼ö·ÅÇÏ´Â Á¶°ÇÀ» Á¦½ÃÇÑ´Ù.
(a) 1 Â÷¿ø ÃÖÀûÈ. ÀÌ ±×¸²Àº
f(x) ÀÇ ÃÖ¼ÒȰ¡ -f(x) ÀÇ ÃÖ´ëÈ¿Í °°À½À» º¸¿©ÁØ´Ù.
(b) 2 Â÷¿ø ÃÖÀûÈ.
ÀÌ ±×¸²Àº ÃÖ´ë°ª (ÇÔ¼öÀÇ µî°í¼±°ªÀÌ »êó·³ Á¤»ó¿¡¼ ÃÖ´ë°ª) ȤÀº ÃÖ¼Ò°ª
(ÇÔ¼öÀÇ µî°í¼±°ªÀÌ °è°îó·³ ÃÖ¼Ò°ª) À» ³ªÅ¸³½´Ù.
±¸¹è¹ý (Gradient Methods) : Steven C. Chapra, Raymond P. Canale : ÃÖÀûÈ ¹®Á¦¸¦ ºÐ·ùÇÏ´Â ¶Ç ´Ù¸¥ ¹æ¹ýÀº Â÷¿ø¿¡ µû¸¥ ºÐ·ùÀÌ´Ù. ÀÌ ¹æ¹ýÀº Á¾Á¾ 1 Â÷¿ø ¹®Á¦¿Í ´ÙÂ÷¿ø ¹®Á¦·Î ºÐ·ùÇÑ´Ù. ¸» ±×´ë·Î 1 Â÷¿ø ¹®Á¦´Â ÇÔ¼ö°¡ ÇѰ³ÀÇ Á¾¼Óº¯¼ö¿¡ ÀÇÁ¸ÇÏ´Â °æ¿ì´Ù. ±×¸² a ¿¡¼Ã³·³ ÀÌ Å½»öÀº 1 Â÷¿øÀÇ Á¤»óµé°ú °è°îµéÀ» ¿À¸£³»¸®°Ô µÈ´Ù. ´ÙÂ÷¿ø ¹®Á¦´Â µÎ °³, ȤÀº ±× ÀÌ»óÀÇ Á¾¼Óº¯¼öµé¿¡ ÀÇÁ¸ÇÏ´Â ÇÔ¼öµéÀ» Æ÷ÇÔÇÑ´Ù. 2 Â÷¿ø ÃÖÀûȵµ Á¤»óµé°ú °è°îµéÀ» Ž»öÇÏ´Â °ÍÀ¸·Î Ç¥ÇöµÇ³ª, ½ÇÁ¦ µî»êÇÏ´Â °Íó·³ ÇÑ ¹æÇâÀ¸·Î¸¸ °É¾î°¡µµ·Ï ±¸¼ÓµÇÁö ¾Ê°í, ¸ñÀûÁö¿¡ È¿°úÀûÀ¸·Î µµ´ÞÇϱâ À§ÇØ ÁöÇüÀ» Ž»çÇÏ°Ô µÈ´Ù (±×¸² b) ..... ÃÖ¼Ò°ªÀ» ã´Â °úÁ¤Àº ÃÖ´ë°ªÀ» ã´Â °úÁ¤°ú µ¿ÀÏÇÏ´Ù ¿Ö³ÄÇϸé, f(x) ¸¦ ÃÖ¼ÒÈÇÏ´Â x*°ªÀº -f(x) ¸¦ ÃÖ´ëÈÇϱ⠶§¹®ÀÌ´Ù. ÀÌ·¯ÇÑ µ¿µî¼ºÀº ±×¸² a ÀÇ 1 Â÷¿ø ÇÔ¼ö¿¡ ±×·¡ÇÁ·Î Ç¥ÇöµÈ´Ù.