Model Representation
์์ผ๋ก ์ฌ์ฉ๋ ๊ฒฝ์ฐ๋ฅผ ์ํด, ๋ช ๊ฐ์ง ๊ธฐํธ๋ค์ ์ ์ํ๊ณ ๋์ด๊ฐ๋๋ก ํ์. $x^{(i)}$๋ ์ ๋ ฅ ๋ณ์๋ฅผ ๋ํ๋ด๊ณ , ์ ๋ ฅ ํน์ง์ด๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค. $y^{(i)}$๋ ์ถ๋ ฅ ๋๋ ํ๊ฒ ๋ณ์๋ฅผ ๋ํ๋ด๊ณ , ์ด ๊ฐ์ด ์ฐ๋ฆฌ๊ฐ ์์ธกํ๊ณ ์ ํ๋ ๊ฐ์ด๋ค. $(x^{(i)}, y^{(i)})$ ์์ ํ์ต ์์๋ผ๊ณ ๋ถ๋ฅด๊ณ , ์ด ๋ฐ์ดํฐ์ ์ ํ์ตํ ๋ ์ฌ์ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ m๊ฐ ํ์ต ์์๋ก ์ด๋ฃจ์ด์ง ๋ฆฌ์คํธ $(x^{(i)}, y^{(i)}); i=1, ..., m$์ training set์ด๋ฌ๊ณ ๋ถ๋ฅธ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ ๊ธฐํธ์์ ๋ฑ์ฅํ "$i$"๋ training set์ ์ธ๋ฑ์ค์ผ ๋ฟ, ์ง์์ ์ญํ ์ ํ์ง ์๋๋ค! ๐ ๋ํ, $X$๋ ์ ๋ ฅ ๋ณ์๋ค์ ๊ณต๊ฐ์, $Y$๋ ์ถ๋ ฅ ๋ณ์๋ค์ ๊ณต๊ฐ์ ๋ํ๋ธ๋ค.
supervised learning์ ์ข ๋ ๊ณต์์ ์ผ๋ก ์ค๋ช ํ๋ฉด, training set๊ฐ ์ฃผ์ด์ง๋ฉด ํจ์ $h: X \to Y$๋ฅผ ํ์ตํ์ฌ $h(x)$๊ฐ $y$์ ํด๋น ๊ฐ์ ๋ํ "์ข์" ์์ธก ๋ณ์๊ฐ ๋๋๋ก ํ๊ฒ ํ๋ ๊ฒ์ด๋ค. ์ด ํจ์ $h$๋ hypothesis$($๊ฐ์ค$)$์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด ๊ณผ์ ์ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์์ธกํ๋ ค๋ ํ๊ฒ ๋ณ์๊ฐ ์ฐ์์ ์ผ ๋, ํ์ต ๋ฌธ์ ๋ฅผ "ํ" ๋ฌธ์ ๋ผ๊ณ ํ๋ค. $y$๊ฐ ์์์ ์ด์ฐ ๊ฐ๋ง ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ์๋ ์ด๋ฅผ "๋ถ๋ฅ" ๋ฌธ์ ๋ผ๊ณ ํ๋ค.
Cost Function
hypothesis function์ ์ ํ๋๋ฅผ cost function์ ์ฌ์ฉํด์ ์ธก์ ํ ์ ์๋ค. cost function์ ๋ชจ๋ ์ ๋ ฅ$x$์ ๋ํ hypothesis์ ๊ฒฐ๊ณผ์ ์ค์ ์ถ๋ ฅ๊ฐ $y$๋ฅผ ๋น๊ตํด์, ํ๊ท ์ฐจ๋ฅผ ๊ตฌํ๋ค. ์ด๋ฅผ ์์ํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
๊ตฌ๋ถํ์๋ฉด, $\bar{x}$๊ฐ $h_{\theta}(x_{i}) - y_{i}$์ ์ ๊ณฑ์ ํ๊ท ๋๋ ์์ธก ๊ฐ๊ณผ ์ค์ ๊ฐ์ ์ฐจ์ด์ธ $\frac {1}{2} \bar{x}$์ด๋ค. ์ด ํจ์๋ ๋ค๋ฅธ ๋ง๋ก "squared error function$($์ ๊ณฑ ์ค์ฐจ ํจ์$)$" ๋๋ "Mean squared error$($ํ๊ท ์ ๊ณฑ ์ค์ฐจ$)$"๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ ๊ณฑ ํจ์์ ๋ฏธ๋ถ ํญ์ด $\frac {1}{2}$ ํญ์ ์์ํ๋ฏ๋ก ๊ฒฝ์ฌ ํ๊ฐ ๊ณ์ฐ์ด ํธ์๋ฅผ ์ํด ํ๊ท ์ $\frac {1}{2}$์ ์ํด ์ ๋ฐ์ผ๋ก ์ค์ธ๋ค. ๋ค์์ ๊ทธ๋ฆผ์ cost function์ ๋ํ ์์ฝ์ด๋ค.
Cost Function - Intuition I
์๊ฐ์ ์ผ๋ก ์๊ฐํด์ training dataset์ด xy ํ๋ฉด์ ํฉ๋ฟ๋ ค์ ธ ์๋ค๊ณ ์๊ฐํด๋ณด์. ์ด ํฉ๋ฟ๋ ค์ง ๋ฐ์ดํฐ ์ ๋ค์ ํต๊ณผํ๋ ์ง์ ์ ๊ทธ์ด๋ณด์.
์ฐ๋ฆฌ์ ๋ชฉํ๋ ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ์ ์ ์ฐพ๋ ๊ฒ์ด๋ค. ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ์ ์ ํฉ๋ฟ๋ ค์ง ์ ๋ค์ ํ๊ท ์ ๊ณฑ ์์ง ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ์ฅ ์ ์ ์ ์ด ๋ ๊ฒ์ด๋ค. ๊ฐ์ฅ ์ด์์ ์ธ ์ ์ ๋ฐ์ดํฐ์ ์ ๋ชจ๋ ์ ์ ์ง๋๋ ์ ์ด ๋ ๊ฒ์ด๋ค. ๊ทธ ๊ฒฝ์ฐ์๋ $J(\theta_{0}, \theta_{1})$๋ 0์ด ๋ ๊ฒ์ด๋ค. ์๋์ ๊ทธ๋ฆผ์ cost function์ด 0์ธ ์ด์์ ์ธ ์ํฉ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
$\theta_{1} = 1$์ผ ๋, ๋ฐ์ดํฐ์ ์ ๋ชจ๋ ์ ์ ์ง๋๋ ๊ฒฝ์ฌ๊ฐ 1์ธ ์ ์ ์ป๊ฒ ๋๋ค. ๋ฐ๋๋ก, $\theta_{1} = 0.5$์ผ ๋, ์ ํฉ๋์์ ๋ฐ์ดํฐ ํฌ์ธํธ ๊น์ง์ ์์ง ๊ฑฐ๋ฆฌ๊ฐ ์ฆ๊ฐํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ด๋ cost function์ 0.58๊น์ง ์ฆ๊ฐ์ํจ๋ค. ๋ช ๊ฐ์ง ๋ค๋ฅธ ์ ์ ํ๋กํ ํ๋ฉด ๋ค์์ ๊ทธ๋ํ๊ฐ ์์ฑ๋๋ค.
๋ชฉํ์ฒ๋ผ, cost function์ ์ต์ํํด์ผ ํ๋ค. ์ด ๊ฒฝ์ฐ์๋ $\theta_{1} = 1$์ด global ์ต์๊ฐ์ด๋ค.
Cost Function - Intuition II
๋ฑ๊ณ ์ ๊ทธ๋ํ๋ ์ฌ๋ฌ ๋ฑ๊ณ ์ ์ ํฌํจํ๊ณ ์๋ค. ๋ ๋ณ์ ํจ์์ ๋ฑ๊ณ ์ ์ ๋๊ฐ์ ์ ์ ๋ชจ๋ ์ ์์ ๋ณํจ์๋ ๋ณ์๋ฅผ ๊ฐ์ง๋ค. ์๋ ๊ทธ๋ฆผ์ ์ค๋ฅธ์ชฝ์ด ์ด ๊ทธ๋ํ์ ๋ํ ์์์ด๋ค.
๋๊ฐ์ ์๊น์ ๋ฑ๊ณ ์ ์์ ์๋ ๋ชจ๋ ์ ์ ๋๊ฐ์ cost function ๊ฐ์ ๊ฐ์ง๋ค. ์ ๊ทธ๋ฆผ์์ ์ด๋ก์ ์ ์์ ์ธ ๊ฐ์ ์ ์ $J(\theta_{0}, \theta_{1})$์ ๋ํด ๋๊ฐ์ ๊ฐ์ ๊ฐ์ง๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋๊ฐ์ ์ ์์ ์์นํ๊ฒ ๋๋ค. ๋๊ทธ๋ผ๋ฏธ ์ณ์ง $x$๋ ๊ทธ๋ํ์ ๋ํ cost function์ ๊ฐ์ ๋ณด์ฌ์ค๋ค. ์ด $x$๋ $\theta_{0} = 800, \theta_{1} = -0.15$์ ๊ฐ์ ๊ฐ์ง๋ค. ๋๋ค๋ฅธ $h(x)$๋ก ๋ฑ๊ณ ์ ๊ทธ๋ํ๋ฅผ ๋ํ๋ด๋ฉด ๋ค์์ ๊ทธ๋ํ๋ฅผ ๊ฐ๊ฒ ๋๋ค.
$\theta_{0} = 360, \theta_{1} = 0$์ผ ๋, ๋ฑ๊ณ ์ ๊ทธ๋ํ์์ $J(\theta_{0}, \theta_{1})$์ ๊ฐ์ cost function ์ค์ฐจ๋ฅผ ์ค์ฌ์ ์ค์ฌ์ ๋์ฑ ๊ฐ๊น์์ก๋ค. ์ด์ hypothesis function์ ์ค์ ๋ฐ์ดํฐ์ ๋์ฑ ์ ๋ง๋ positive ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๊ฒ ๋๋ค.
์์ ๊ทธ๋ํ๋ ๊ฐ๋ฅํ ๋งํผ cost function์ ์ฃ์ํํด์ ๊ฒฐ๊ณผ์ ์ผ๋ก $\theta_{1}=0.12, \theta_{0}=250$์ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ค. ์ด ๊ฐ๋ค์ ์ ๊ทธ๋ฆผ์ ์ค๋ฅธ์ชฝ์ฒ๋ผ ์ฐ์ด๋ณด๋ฉด ๋๊ทธ๋ผ๋ฏธ์ ๊ฐ์ฅ ์ ์ชฝ์ ์ฐํ๊ฒ ๋๋ค.
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Computing Parameters Analytically (0) | 2023.03.14 |
---|---|
[Machine Learning] Multivariate Linear Regression (0) | 2023.03.14 |
[Machine Learning] Parameter Learning - Gradient Descent (0) | 2023.03.13 |
[Machine Learning] What is Machine Learning? - Supervised Learning & Unsupervised Learning (0) | 2023.03.13 |
Stanford University Machine Learning ๊ฐ์(Andrew Ng) (0) | 2023.03.13 |