Gradient Descent
์ด์ hypothesis function๊ณผ ์ด ํจ์๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ง๋ ์ ๋ง๋์ง ์ธก์ ํ๋ ๋ฐฉ๋ฒ๋ ๊ฐ์ง๊ณ ์๋ค. ์ด์ hypothesis function์์์ parameter๋ฅผ ์ธก์ ํด์ผ ํ๋ค. ์ฌ๊ธฐ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ๋ฑ์ฅํ๊ฒ ๋๋ค.
$\theta_{0}$๊ณผ $\theta_{1}$์ ๊ธฐ๋ฐํด์ hypothesis function์ ๊ทธ๋ํ๋ฅผ ์์ํด๋ณด๋๋ก ํ์. $x$์ $y$ ์์ฒด๋ฅผ ๊ทธ๋ํ๋ก ํ์ํ๋ ๊ฒ์ด ์๋๋ผ hypothesis function์ ํ๋ผ๋ฏธํฐ ๋ฒ์์ ํน์ ํ๋ผ๋ฏธํฐ ์งํฉ์ ์ ํํด์ ๋ฐ์ํ๋ ๋น์ฉ์ ๊ทธ๋ํ๋ก ํ์ํ๋ค.
$\theta_{0}$์ $x$์ถ, $\theta_{1}$์ $y$์ถ, cost function์ ์์ง $z$์ถ์ผ๋ก ๋์ด๋ณด์. ๊ทธ๋ํ์ ์ ์ ํน์ $\theta$ ํ๋ผ๋ฏธํฐ์ ํจ๊ป hypothesis๋ฅผ ์ฌ์ฉํ๋ cost function์ ๊ฒฐ๊ณผ์ด๋ค. ์๋ ๊ทธ๋ํ๋ ๊ทธ๋ฌํ ์ค์ ์ ๋ณด์ฌ์ค๋ค.
์ฐ๋ฆฌ๋ ๊ทธ๋ํ์์ cost function์ ๊ฐ์ด ๋งค์ฐ ๋ฐ๋ฅ์ ์์ ๋ ์ฑ๊ณตํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด๋ ๋ค์ ๋งํด ์ต์๊ฐ์ ์์ ๋๋ฅผ ๋งํ๋ค. ๋นจ๊ฐ์ ํ์ดํ๊ฐ ๊ทธ๋ํ์ ์ต์๊ฐ ์ง์ ์ ๋ํ๋ธ๋ค.
์ด๊ฒ์ ํ๋ ๋ฐฉ๋ฒ์ cost fuction์ ๋ฏธ๋ถ$($ํจ์์ ํ์ ํธ ์ $)$์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ํ์ ํธ์ ๊ธฐ์ธ๊ธฐ๋ ๊ทธ ์์ ์์์ ๋ฏธ๋ถ์ด๊ณ , ์ด๋ ์์ง์ฌ์ผํ ๋ฐฉํฅ์ ์ ๊ณตํด์ค๋ค. ๊ฒฐ๊ตญ์ ๋์ฑ ๊ฐํ๋ฅธ ๊ธฐ์ธ๊ธฐ์ ๋ฐฉํฅ์ผ๋ก cost function์ ๋ฎ์ถฐ๊ฐ๋ค. ๊ฐ ์คํ ์ ํฌ๊ธฐ๋ ํ๋ผ๋ฏธํฐ $\alpha$์ ์ํด ๊ฒฐ์ ๋๋๋ฐ, ์ด๋ฅผ learning rate$($ํ์ต๋ฅ $)$์ด๋ผ ๋ถ๋ฅธ๋ค.
์๋ฅผ ๋ค์ด, ์ ๊ทธ๋ฆผ์์ ๊ฐ ๋ณ๋ค์ ๊ฑฐ๋ฆฌ๋ ํ๋ผ๋ฏธํฐ $\alpha$์ ์ํด ๊ฒฐ์ ๋๋ค. ์์ ๊ฐ์ $\alpha$๋ ์์ ์คํ ์, ํฐ ๊ฐ์ $\alpha$๋ ํฐ ์คํ ์ ๊ฒฐ๊ณผ๋ก ๊ฐ๋๋ค. ์คํ ์ด ์งํ๋ ๋ฐฉํฅ์ $J(\theta_{0}, \theta_{1})$์ ์ํด ๊ฒฐ์ ๋๋ค. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด๋ ์์น์์ ์์ํ๋๋๊ฐ ์ด๋ ์์น์์ ๋๋๊ฒ ๋ ์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด ์๋ก ๋ค๋ฅธ ์์ ์ง์ ์ ์๋ก ๋ค๋ฅธ ์๋ ด์ ๊ฐ์ ธ์จ๋ค.
๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ค์์ ์์ ์๋ ดํ ๋๊น์ง ๋ฐ๋ณตํ๋ค.
์ฌ๊ธฐ์ $j = 0, 1$์ feature ์ธ๋ฑ์ค ๋๋ฒ๋ฅผ ๋ํ๋ธ๋ค.
๊ฐ ๋ฐ๋ณต $j$์์, ํ๋ผ๋ฏธํฐ $\theta_{0}, \theta_{1}, ..., \theta_{n}$์ ๋์์ ์ ๋ฐ์ดํธํด์ผ ํ๋ค. ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ ๊ณ์ฐํ๊ธฐ ์ ์ ํน์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ ํ๋ฉด ์๋ชป๋ ์ ๋ฐ์ดํธ๋ฅผ ๋ถ๋ฌ์ค๊ฒ ๋๋ค.
Gradient Descent Intuition
ํ๋์ ํ๋ผ๋ฏธํฐ $\theta_{1}$์ ์ฌ์ฉํด์ ์ด๊ฒ์ cost function์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํตํด์ ๊ทธ๋ ค๋ณด์๋ค. ํ๋์ ํ๋ผ๋ฏธํฐ์ ๋ํ ๊ณต์์ ๋ค์์ ์์์ ์๋ ดํ ๋๊น์ง ๋ฐ๋ณตํ๋ฉด ๋๋ค.
$\frac {d}{d \theta_{1}} J(\theta_{1})$์ ์ํ ๊ธฐ์ธ๊ธฐ์ ์ฌ์ธ์ ์๊ด์์ด, $\theta_{1}$์ ์ต์๊ฐ์ ์๋ ดํ๊ฒ ๋๋ค. ๋ค์์ ๊ทธ๋ํ๋ ๊ธฐ์ธ๊ธฐ๊ฐ ์์์ผ ๋๋ $\theta_{1}$์ ๊ฐ์ด ์ฆ๊ฐํ๊ณ , ์์์ผ ๋๋ $\theta_{1}$์ ๊ฐ์ด ๊ฐ์ํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์ฐ๋ฆฌ๋ ํ๋ผ๋ฏธํฐ $\alpha$๋ฅผ ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ด ํฉ๋ฆฌ์ ์ธ ์๊ฐ์ ์๋ ดํ ์ ์๊ฒ ๋ณด์ฅํ๋๋ก ์กฐ์ ๋์ด์ผ ํ๋ค. ์๋ ด์ ์คํจํ๊ฑฐ๋, ์ต์๊ฐ์ ์ป๋๋ฐ ๋๋ฌด ๋ง์ ์๊ฐ์ ์๋๋ค๋ฉด step size๊ฐ ์๋ชป๋์๋ค๋ ๊ฒ์ ์์ํ๋ค.
์ด๋ป๊ฒ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๊ณ ์ ๋ step size $\alpha$๋ก ์๋ ดํ ์ ์์๊น?
์๋ ด์ ๋ค์ ์๋ ๊ฐ๋ ์ $\frac {d}{d \theta_{1}} J(\theta_{1})$์ด convex function$($์ต์๊ฐ์ด ๋ฑ ํ๋๋ก ์ ํด์ ธ ์๋ ํจ์$)$์ ๋ฐ๋ฅ์ ์ ๊ทผํ๋ ๊ฒ์ฒ๋ผ 0์ ์ ๊ทผํ๋ ๊ฒ์ด๋ค. ์ต์๊ฐ์์ ์ด ๊ฐ์ ํญ์ 0์ด๊ณ , ๋ค์์ ์์์ ์ป๊ฒ ๋๋ค.
Gradient Descent for Linear Regression
์ ํ ํ๊ท$($linear regression$)$์ ์ ์ฉํ ๋, ์๋ก์ด ์ ํ์ ๊ฒฝ์ฌ ํ๊ฐ ์์์ด ํ์ํ๋ค. ๊ธฐ์กด์ cost function๊ณผ hypothesis function, ๊ทธ๋ฆฌ๊ณ ์์์ ๋ค์๊ณผ ๊ฐ์ด ์กฐ์ ํ ์ ์๋ค.
$m$์ training set์ ํฌ๊ธฐ๋ฅผ ์๋ฏธํ๊ณ , $\theta_{0}$์ $\theta_{1}$์ ๋์์ ๋ณํํ๊ณ , $x_{i}, y_{i}$๋ ์ฃผ์ด์ง training set์ ๊ฐ๋ค์ด๋ค.
$\theta_{j}$์ ๋ํ ๋ ๊ฐ์ง ๊ฒฝ์ฐ๋ฅผ $\theta_{0}$ ๋ฐ $\theta_{1}$์ ๋ํ ๋ณ๋์ ๋ฐฉ์ ์์ผ๋ก ๋ถ๋ฆฌํ๋ค. $\theta_{1}$์ ๊ฒฝ์ฐ ๋ฏธ๋ถ์ผ๋ก ์ธํด ๋์ $x_{i}$๋ฅผ ๊ณฑํ๋ค. ๋ค์์ ์์์ ํ๋์ example์ ๋ํ $\frac {\partial}{\partial \theta_{j}} J(\theta)$์ ๋ฏธ๋ถ์ด๋ค.
๊ฐ์ฅ ์ค์ํ ์ ์ ์ฐ๋ฆฌ์ hypothesis์ ๋ํด ๊ฒฝ์ฌ ํ๊ฐ์์ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํ์ ๋, hypothesis๊ฐ ๋์ฑ ์ ๊ตํด์ง๋ค๋ ์ ์์ ์์๋์๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋์, ์ด๋ ๊ธฐ์กด์ cost function $J$์ ๊ฐ๋จํ๊ฒ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ ๊ฒ์ด๋ค. ์ด method๋ ๋ชจ๋ step์์ ์ ์ฒด training set์ ๋ชจ๋ example์ ์ฐธ์กฐํ๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ batch gradient descent๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก local minima์ ์๋ ดํ๊ธฐ ์ฝ์ง๋ง, ์ฌ๊ธฐ์์ ์ฌ์ฉํ linear regression์ ๊ฒฝ์ฐ์๋ local opitima ์์ด ์ค์ง ํ๋์ global optima๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ์ด ๊ฒฝ์ฐ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํญ์ global minimum์ ์๋ ดํ๋ค. ์ฌ์ค $J$๋ convex quadratic ํจ์์ด๋ค. ๋ค์์ ๊ทธ๋ฆผ์ ์ด์ฐจ ํจ์์ ๋ํด ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ต์๊ฐ์ ์ฐพ๋ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ ๊ทธ๋ฆผ์ ํ์์ ์ด์ฐจ ํจ์์ ๋ฑ๊ณ ์ ์ ๋ํ๋ธ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๊ถค๋ ๋ํ ๋ณด์ฌ์ง๊ณ ์๋๋ฐ, ์ด๊น๊ฐ์ $(48, 30)$์ด๋ค. ์ ๊ทธ๋ฆผ์ $x$๋ค์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ์ต์๊ฐ์ผ๋ก ์๋ ดํ๋ฉด์ ํต๊ณผํ $\theta$์ ์ฐ์ ๊ฐ์ ํ์ํ๋ค.
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Computing Parameters Analytically (0) | 2023.03.14 |
---|---|
[Machine Learning] Multivariate Linear Regression (0) | 2023.03.14 |
[Machine Learning] Model & Cost Function (0) | 2023.03.13 |
[Machine Learning] What is Machine Learning? - Supervised Learning & Unsupervised Learning (0) | 2023.03.13 |
Stanford University Machine Learning ๊ฐ์(Andrew Ng) (0) | 2023.03.13 |