Lecture ๐ง๐ซ/Coursera
Prioritizing What to Work On System Desing Example: ์คํธ ๋ฉ์ผ์ ๋ถ๋ฅํ๋ค๊ณ ํ ๋, ์ด๋ฉ์ผ ์ธํธ๊ฐ ์ฃผ์ด์ง๋ฉด ๊ฐ ์ด๋ฉ์ผ์ ๋ํ ๋ฒกํฐ๋ฅผ ๋ง๋ค์ด์ผ ํ๋ค. ์ด ๋ฒกํฐ์ ๊ฐ๊ฐ์ entry๋ ๋จ์ด๋ค์ ๋ํ๋ธ๋ค. ๋ฒกํฐ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ์
์์ ํํ๊ฒ ๋ฐ๊ฒฌ๋๋ ๋จ์ด๋ค์ ๋ชจ์์ 10,000๊ฐ์์ 50,000๊ฐ์ entry๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋ง์ฝ ์ด๋ฉ์ผ์์ ๋จ์ด๊ฐ ์ฐพ์์ง๋ฉด, ์ด์ ๋ํ entry๋ฅผ 1๋ก ํ๊ณ , ์ฐพ์์ง์ง ์์ผ๋ฉด entry๋ฅผ 0์ผ๋ก ํ๋ค. $x$ ๋ฒกํฐ๋ค์ด ๋ชจ๋ ์ค๋น๋๋ฉด ์๊ณ ๋ฆฌ์ฆ์ ํ์ต์ํค๊ณ ์ต์ข
์ ์ผ๋ก ์ด๋ฉ์ผ์ ์ ์ฉํด์ ์คํธ์ธ์ง ์๋์ง๋ฅผ ๋ถ๋ฅํ๋๋ฐ ์ฌ์ฉํ๋ค. ์ด๋ป๊ฒ ํ๋ฉด ๋ถ๋ฅ๊ธฐ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๊น? ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ ๊ตํ feature ์ฌ์ฉ$($ex. ์คํธ..
Lecture ๐ง๐ซ/Coursera
Diagnosing Bias vs Variance ์ด ์น์
์์๋ polynomial d์ hypothesis์ underfitting ํน์ overfitting์ ๊ด๊ณ์ ๋ํด์ ์กฐ์ฌํ์๋ค. ์๋ชป๋ ์์ธก์ ๊ณตํํ๋ bias์ variance๋ฅผ ๊ตฌ๋ถํ์๋ค. ๋์ bias๋ underfitting์ ์ผ๊ธฐํ๊ณ , ๋์ variance๋ overfitting์ ์ผ๊ธฐํ๋ค. ๋ฐ๋ผ์ ์ด ๋ ๊ฐ์ ํฉ๊ธ ํ๊ท ์ ์ฐพ์์ผ ํ ํ์๊ฐ ์๋ค. polynomial์ degree d๋ฅผ ์ฆ๊ฐ์ํฌ ์๋ก training error๋ ๊ฐ์ํ๋ ๊ฒฝํฅ์ด ์๋ค. ๋์๊ฐ๋์ cross validation error๋ ์ผ์ ํฌ์ธํธ๊น์ง๋ ๊ฐ์ํ๋ ๊ฒฝํฅ์ด ์๊ณ , ๊ทธ ๋ค์์๋ d๊ฐ์ด ์ค๋ฆ์ ๋ฐ๋ผ ์์นํ๋ฉด์, convex curve๋ฅผ ๋ง๋ค์ด ๋ธ๋ค $($์ต์..
Lecture ๐ง๐ซ/Coursera
Evaluating a Hypothesis ๋ค์์ ํตํด ์์ธก ์ค๋ฅ์ ๋ํ ๋ช ๊ฐ์ง ๋ฌธ์ ํด๊ฒฐ์ ์ํํ๋ค. ๋ ๋ง์ training example์ ๊ฐ์ ธ์ค๊ธฐ ์์ feature ์ธํธ๋ฅผ ์๋ ์ถ๊ฐ์ ์ธ feature์ ์๋ ๋คํญ์ feature์ ์๋ $\lambda$ ๊ฐ์ ๋๋ฆฌ๊ฑฐ๋ ์ค์ด๊ธฐ ์ด์ ์๋ก์ด hypothesis๋ฅผ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์. hypothesis๋ training example์ ๋ํด ๋ฎ์ ์ค์ฐจ๋ฅผ ๊ฐ์ง๊ณ ์์ ์ ์์ง๋ง, ์์ง ๋ถ์ ํํ๋ค $($overfitting ๋๋ฌธ$)$. ๋ฐ๋ผ์ hypothesis๋ฅผ ํ๊ฐํ๊ธฐ ์ํด์๋ ์ฃผ์ด์ง training example ๋ฐ์ดํฐ์
์ ๋ํด ๋ ๊ฐ์ ์ธํธ๋ก ๋ถ๋ฆฌํ์ฌ์ผ ํ๋ค: training set & test set. ๋ณดํต training set๋..
Lecture ๐ง๐ซ/Coursera
Gradient Checking Gradient checkin ์ฆ, ๊ธฐ์ธ๊ธฐ ์ฒดํฌ๋ ์ญ์ ํ๊ฐ ์๋ํ ๋๋ก ์ ๋๊ณ ์๋์ง ๋ณด์ฅํด์ค๋ค. cost function์ ๋ฏธ๋ถ์ ๋ค์์ ์ฌ์ฉํ์ฌ ๊ทผ์ฌํ ์ ์๋ค. ์ฌ๋ฌ ๊ฐ์ ์ธํ ํ๋ ฌ์ ์ฌ์ฉํ๋ฉด, $\theta_{j}$์ ๊ดํ ๋ฏธ๋ถ์ ๋ค์๊ณผ ๊ฐ์ด ๊ทผ์ฌํ ์ ์๋ค. $\epsilon$์ $\epsilon = 10^{-4}$ ๊ฐ์ ์์ ๊ฐ์ด์ด์ผ ์ ์ ํ๊ฒ ์ ์๋ํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค. $\epsilon$์ ๊ฐ์ด ๋๋ฌด ์์ผ๋ฉด ์์น์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์๋ ์๋ค. ๊ทธ๋์ $\theta_{j}$ ํ๋ ฌ์ epsilon์ ์ถ๊ฐํ๊ฑฐ๋ ๋นผ๊ธฐ๋ง ํ๋ค. ์ด์ ์ deltaVector๋ฅผ ์ด๋ป๊ฒ ๊ณ์ฐํ๋์ง์ ๋ํด ์์๋ณด์๋ค. ๊ทธ๋์ gradApprox๋ฅผ ๊ณ์ฐํ ์ ์๊ฒ ๋๋ฉด, $gradAppr..
Lecture ๐ง๐ซ/Coursera
Cost Function cost function์ ์ค๋ช
ํ ๋ ์ฌ์ฉํ ๋ช ๊ฐ์ ๋ณ์๋ค์ ์ ์ํด๋ณด๋๋ก ํ์. $L$: ๋คํธ์ํฌ์ ์๋ ์ด ๋ ์ด์ด์ ์ $s_l$: ๋ ์ด์ด $l$์ ์๋ unit์ ์ $K$: ์ถ๋ ฅ ์ ๋๊ณผ ํด๋์ค์ ์ ์ด ๋ณ์๋ค์ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ์์ ๋ ์ฌ๋ ค๋ณด๋ฉด, ๋ง์ ์ถ๋ ฅ ๋
ธ๋๋ค์ ๊ฐ์ง๊ฒ ๋ ๊ฒ์ด๋ค. $h_{\theta}(x)_{k}$๋ $k$๋ฒ์งธ ์ถ๋ ฅ์ผ๋ก ๊ฒฐ๊ณผ๋ก ๋ด๋๋ hypothesis๋ฅผ ๋ํ๋ธ๋ค. ์ ๊ฒฝ๋ง์ ์ํ cost function์ ์ฐ๋ฆฌ๊ฐ logistic function์์ ์ฌ์ฉํ ๊ฒ์ ์ผ๋ฐํ์ด๋ค. ์ ๊ทํ๋ logistic regression์ cost function์ ๋ ์ฌ๋ ค๋ณด๋๋ก ํ์. ์ ๊ฒฝ๋ง ๋คํธ์ํฌ์ ๋ํด์๋ ์ด๊ฒ์ ํํ๊ฐ ์ด์ง ๋ฐ๋๊ฒ ๋๋ค. ์ฌ๋ฌ ๊ฐ์ ์ถ๋ ฅ ๋
ธ๋๋ฅผ ์ค๋ช
ํ๊ธฐ..
Lecture ๐ง๐ซ/Coursera
Model Representation I ์ ๊ฒฝ๋ง์ ์ฌ์ฉํด์ ์ด๋ป๊ฒ hypothesis function์ ํํํ ์ง ์๊ฐํด๋ณด๋๋ก ํ์. ๋งค์ฐ ๊ฐ๋จํ ์์ค์์, ๋ด๋ฐ์ ์ ๊ธฐ์ ์ ํธ๋ก ์
๋ ฅ์ ๋ฐ์์ ์ถ๋ ฅ์ ์ฑ๋๋งํ๋ ๊ณ์ฐ ์ ๋์ผ๋ก ์๊ฐํ ์ ์๋ค. ๋ชจ๋ธ์ ๊ฐ๋
์ผ๋ก ์๊ฐํด๋ณด๋ฉด ์
๋ ฅ์ feature $x_1, \cdots x_n$์ด ๋๊ณ , ์ถ๋ ฅ์ hypothesis function์ ๊ฒฐ๊ณผ๊ฐ ๋๋ค. ๋ชจ๋ธ์์ $x_0$ ์
๋ ฅ ๋
ธ๋๋ bias unit์ผ๋ก ๋ถ๋ฆฌ๊ธฐ๋ ํ๋๋ฐ, ์ด ๋
ธ๋๋ ํญ์ 1์ ๊ฐ์ ๊ฐ์ง๋ค. ์ ๊ฒฝ๋ง์์ ๋ถ๋ฅ์ฒ๋ผ ๋๊ฐ์ logistic function์ด๊ณ , sigmoid ํ์ฑํ ํจ์๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ $\frac {1}{1+e^{-\theta^{T}x}}$์ ์ฌ์ฉํ๋ค. ์ด ์ํฉ์์ ์ธํ ํ๋ผ๋ฏธํฐ๋ ๊ฐ์ค์น๋ผ๊ณ ๋..
Lecture ๐ง๐ซ/Coursera
The Problem of Overfitting $x \in \mathbb{R}$๋ก๋ถํฐ $y$๋ฅผ ์์ธกํ๋ ๋ฌธ์ ๋ฅผ ์๊ฐํด๋ณด๋๋ก ํ์. ์๋์ ์ผ์ชฝ ๊ทธ๋ฆผ์ $y = \theta_{0} + \theta_{1}x$๋ฅผ ๋ฐ์ดํฐ์
์ ์ ์ฉ์์ผฐ์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ง์ ์ด ์ ํํ ์ ๋ค์ ์์ ์์ง ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ๋ฐ๋ผ์ ์ง์ ์ด ์ ๋ค์ ์ ํํ ๋ง์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ฌ๊ธฐ์ ์ถ๊ฐ์ ์ผ๋ก feature์ ์ถ๊ฐํ๋ฉด, $y = \theta_{0} + \theta_{1}x + \theta_{2}x^{2}$์ ์ป๊ฒ ๋๊ณ , ๊ทธ ์ ๋ณด๋ค ์ข ๋ ๋ฐ์ดํฐ์ ๋ง๋ ํจ์๋ฅผ ์ป๊ฒ ๋๋ค. ์ด๋ฅผ ๋ฏธ๋ฃจ์ด ๋ณด์, feature๊ฐ ๋ ๋ง์์ง๋ฉด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ๊ฒ์ ์ง์ํด๋ณผ ์ ์๋ค. ํ์ง๋ง, ๊ทธ๋ ..
Lecture ๐ง๐ซ/Coursera
Multiclass Classification: One-vs-all ์ด์ ๋ถํฐ ๋ ๊ฐ ์ด์์ ์นดํ
๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ง๋ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ด ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ๋ถ๋ฅํ ๊ฒ์ด๋ค. $y={0,1}$ ๋์ ์, ์ข ๋ ํ์ฅ๋ $y={0,1,...,n}$์ ์ฌ์ฉํ ๊ฒ์ด๋ค. $y={0,1,...,n}$์ด๋ฏ๋ก ๋ฌธ์ ๋ฅผ $n+1$ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ก ๋๋๋ค. ๊ฐ๊ฐ์์ $y$๊ฐ ์ฐ๋ฆฌ์ ํด๋์ค ์ค ํ๋์ ๊ตฌ์ฑ์์ผ ํ๋ฅ ์ ์์ธกํ๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ํ๋์ ํด๋์ค๋ฅผ ์ ํํด์ ๋ค๋ฅธ ๋ชจ๋ ํด๋์ค๋ฅผ ํ๋์ ๋ ๋ฒ์งธ ํด๋์ค๋ก ๋ฌถ๋๋ค. ์ด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ํ์ฌ, ์ด์ง logistic regression์ ๊ฐ ์ผ์ด์ค์ ์ ์ฉ์ํจ ๋ค์์, ๊ฐ์ฅ ๋์ ๊ฐ์ ๋ฐํํ hypothesis๋ฅผ ์์ธก์ผ๋ก ์ฌ์ฉํ๋ค. ๋ค์์ ๊ทธ๋ฆผ์ ํ๋์ ๋ฐ์ดํฐ์
์ด 3๊ฐ์ ํด๋์ค๋ก ๋ถ๋ฅ๋๋ ๊ณผ์ ์..
Lecture ๐ง๐ซ/Coursera
Classification ๋ถ๋ฅ๋ฅผ ํ๊ธฐ ์ํ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก๋, ์ ํ ํ๊ท๋ฅผ ์ฌ์ฉํด์ 0.5๋ณด๋ค ํฐ ๊ฐ์ 1๋ก, 0.5๋ณด๋ค ์์ ๊ฐ์ 0์ผ๋ก ๋งคํ์ ํ๋ ๋ฐฉ๋ฒ์ด ์๋ค. ํ์ง๋ง, ์ด ๋ฐฉ๋ฒ์ ์ ์๋ํ์ง ์๋๋ฐ, ๋ณดํต ๋ถ๋ฅ ๋ฌธ์ ๊ฐ ์ ํ ํจ์ ๋ฌธ์ ๊ฐ ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ถ๋ฅ ๋ฌธ์ ๋ ์์ธกํ๋ ค๋ ๊ฐ์ด ์์์ ์ด์ฐ๊ฐ๋ง ์ทจํ๋ค๋ ์ ์ ์ ์ธํ๋ฉด ํ๊ท ๋ฌธ์ ์ ๊ฐ๋ค. ์ง๊ธ๋ถํฐ๋ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์ ์ง์คํ ๊ฒ์ด๋ค. ์ด ๋ฌธ์ ์์ $y$๋ 0๊ณผ 1, ์ค์ง ๋ ๊ฐ๋ง ๊ฐ์ง ์ ์๋ค. ์๋ฅผ ๋ค์ด, ์คํธ ๋ถ๋ฅ๊ธฐ๋ฅผ ๋ง๋ ๋ค๊ณ ํ ๋, $x_{i}$๋ ์ด๋ฉ์ผ์ feature๊ฐ ๋๊ณ , $y$๋ ์คํธ ๋ฉ์ผ์ผ ๊ฒฝ์ฐ 1, ์๋ ๊ฒฝ์ฐ 0์ด ๋๋ค. ๊ทธ๋์ $y \in {1, 0}$์ด ๋๋ค. 0์ negative class๋ก ๋ถ๋ฆฌ๊ณ , 1์ positiv..
Lecture ๐ง๐ซ/Coursera
Normal Equation ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ cost function $J$์ ๊ฐ์ ์ค์ด๋ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค. cost function์ ๊ฐ์ ์ค์ด๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์์๋ณด๋๋ก ํ์! ์ด๋ฒ์ ์์๋ณผ ๋ฐฉ๋ฒ์ ๋ช
์พํ๊ฒ ์ต์ํ๋ฅผ ํ๊ณ , ๋ฐ๋ณต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ง ์๋๋ค. "Normal Equation"์ $\theta_{j}$์ ๊ดํ์ฌ ๋ฏธ๋ถ์ ํจ์ผ๋ก์จ 0์ผ๋ก ์ค์ ํ์ฌ $J$๋ฅผ ์ต์ํํ๋ค. ์ด๋ ๋ฐ๋ณต ์์ด ์ต์ ์ $\theta$๋ฅผ ์ฐพ์ ์ ์๊ฒ ํด์ค๋ค. normal equation ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค. $\theta = (X^{T}X)^{-1}X^{T}y$ normal equation์์๋ feature scaling์ ํ ํ์๊ฐ ์๋ค. ๋ค์์ ํ๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ๊ณผ normal equation ๊ฐ์ ๋น๊ต๋ฅผ ๋ณด์ฌ์ค๋ค. G..