The Problem of Overfitting
$x \in \mathbb{R}$๋ก๋ถํฐ $y$๋ฅผ ์์ธกํ๋ ๋ฌธ์ ๋ฅผ ์๊ฐํด๋ณด๋๋ก ํ์. ์๋์ ์ผ์ชฝ ๊ทธ๋ฆผ์ $y = \theta_{0} + \theta_{1}x$๋ฅผ ๋ฐ์ดํฐ์ ์ ์ ์ฉ์์ผฐ์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ง์ ์ด ์ ํํ ์ ๋ค์ ์์ ์์ง ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ๋ฐ๋ผ์ ์ง์ ์ด ์ ๋ค์ ์ ํํ ๋ง์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ฌ๊ธฐ์ ์ถ๊ฐ์ ์ผ๋ก feature์ ์ถ๊ฐํ๋ฉด, $y = \theta_{0} + \theta_{1}x + \theta_{2}x^{2}$์ ์ป๊ฒ ๋๊ณ , ๊ทธ ์ ๋ณด๋ค ์ข ๋ ๋ฐ์ดํฐ์ ๋ง๋ ํจ์๋ฅผ ์ป๊ฒ ๋๋ค. ์ด๋ฅผ ๋ฏธ๋ฃจ์ด ๋ณด์, feature๊ฐ ๋ ๋ง์์ง๋ฉด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ๊ฒ์ ์ง์ํด๋ณผ ์ ์๋ค. ํ์ง๋ง, ๊ทธ๋ ๋ค๊ณ ํด์ ๋๋ฌด ๋ง์ feature์ ์ถ๊ฐํ๋ ๊ฒ๋ ๋ฌธ์ ๋ฅผ ๋ฐ์์ํฌ ์ ์๋ค. ์ค๋ฅธ์ชฝ์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด 5์ฐจ ํจ์์ธ $y = \sum_{j=0}^{5} \theta_{j}x^{j}$์ ์ ์ฉ์ํจ ๋ชจ์ต์ด๋ค. ํจ์๋ฅผ ๋ณด๋ฉด ์ปค๋ธ๊ฐ ๋ชจ๋ ์ ์ ์๋ฒฝํ๊ฒ ์ง๋๋ ๊ฒ์ ์ ์ ์๋ค. ํ์ง๋ง, ๊ทธ๋ ๋ค๊ณ ํด์ ์ด ํจ์๊ฐ ์ข์ ์์ธก์๊ฐ ๋ ์ ์์ ๊ฑฐ๋ผ๊ณ ๋ ๋งํ ์ ์๋ค. ์ผ์ชฝ ๊ทธ๋ฆผ์ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ์ ์บก์ฒํ์ง ๋ชปํ๊ณ ์๋๋ฐ ์ด๋ฅผ underfitting์ด๋ผ ํ๋ค. ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ overfitting์ ์์์ด๋ค.
Underfitting, ํน์ high bias๋ hypothesis function $h$๊ฐ ๋ฐ์ดํฐ์ ์ถ์ธ๋ฅผ ์ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ ๋ ์ฌ์ฉ๋๋ ๋จ์ด์ด๋ค. ์ด๋ ๋ณดํต ํจ์๊ฐ ๋๋ฌด ๊ฐ๋จํ๊ฑฐ๋ ์ ์ feature๋ฅผ ์ฌ์ฉํ ๋ ๋ฐ์ํ๋ค. ์ด์ ๋ฐ๋๋ก๋ overfitting, ํน์ high variance๊ฐ ์๋ค. ์ด๋ hypothesis function $h$๊ฐ ๋ฐ์ดํฐ์๋ ์ ๋ง์ง๋ง, ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ ์์ธกํ๋๋ก ์ ๊ทํ๋์ด ์์ง ์์ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค. ์ด๋ ๋ณดํต ๋ฐ์ดํฐ์ ์๊ด ์๋ ๋ถํ์ํ ๊ณก์ ๊ณผ ๊ฐ๋ค์ ์์ฑํด๋ด๋ ๋ณต์กํ ํจ์ ๋๋ฌธ์ ๋ฐ์ํ๋ค.
์ด ์ฉ์ด๋ linear์ logistic regression ๋ ๋ชจ๋์ ์ ์ฉ๋๋ค. ๋ค์์ overfitting์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ๊ฐ์ง ์ต์ ์ด๋ค.
- feature์ ์ ์ค์ด๊ธฐ
- ์ด๋ค feature๊ฐ ๋ณด์กด๋ ์ง ์ ํ
- model selection ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ
- Regularization
- ๋ชจ๋ feature์ ์ ์งํ์ง๋ง, ํ๋ผ๋ฏธํฐ $\theta_{j}$์ ๊ท๋ชจ๋ฅผ ์ค์ด๊ธฐ
- ์ ๊ทํ๋ ์ฝ๊ฐ ์ ์ฉํ feature๊ฐ ๋ง์ ๋ ์ ์๋
Cost Function
hypothesis function์์ overfitting์ ๊ฒช์ผ๋ฉด, ๋น์ฉ์ ์ฆ๊ฐ์์ผ ํจ์์ ์ผ๋ถ ํญ์ด ๊ฐ๋ ๊ฐ์ค์น๋ฅผ ์ค์ผ ์ ์๋ค. ๋ค์์ ํจ์๋ฅผ ์ข ๋ ์ด์ฐจ ํจ์๋ก ๋ณํํ๊ณ ์ถ๋ค.
$\theta_{0} + \theta_{1}x + \theta_{2}x^{2} + \theta_{3}x^{3} + \theta_{4}x^{4}$
๊ทธ๋ฌ๊ธฐ ์ํด์๋ ์ด ์์์ $\theta_{3}x^{3}$์ $\theta_{4}x^{4}$์ ์ํฅ๋ ฅ์ ์ ๊ฑฐํด์ผ ํ๋ค. ์ด feature์ ์์ ํ ์์ ๊ฑฐ๋ hypothesis function์ ํํ๋ฅผ ๋ฐ๊พธ๋ ๋์ ์, cost function์ ์กฐ์ ํ์๋ค.
$\theta_{3}$๊ณผ $\theta_{4}$์ ๋น์ฉ์ ์ฆ๊ฐ์ํค๊ธฐ ์ํด, ์๋์ cost function์ ๋ง์ง๋ง ๋ถ๋ถ์ ์ถ๊ฐ์ ์ผ๋ก ํญ ๋ ๊ฐ๋ฅผ ์ถ๊ฐ๊ฐํ์๋ค. ์ด์ , cost function์ ๊ฐ์ด 0์ ๊ทผ์ ํ๋๋ก $\theta_{3}$๊ณผ $\theta_{4}$์ ๊ฐ์ 0์ ๊ฐ๊น๊ฒ ๊ฐ์์์ผฐ๋ค. ์ด๋ hypothesis function์์ $\theta_{3}x^{3}$๊ณผ $\theta_{4}x^{4}$์ ๊ฐ์ ํฌ๊ฒ ์ค์ฌ์ค๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์๋ก์ด hypothesis$($ํํฌ์ ๊ณก์ $)$์ ์ด์ฐจ ํจ์๋ก ๋ณด์ฌ์ง์ง๋ง, ๋งค์ฐ ์์ $\theta_{3}x^{3}$์ $\theta_{4}x^{4}$ ๋๋ถ์ ๋ฐ์ดํฐ์ ๋์ฑ ์ ๋ง๋๋ค.
๋ชจ๋ ์ธํ ํ๋ผ๋ฏธํฐ๋ค์ ํ๋์ ์ต์ข ์ฒด๋ก ์ ๊ทํํ์๋ค.
์ฌ๊ธฐ์ $\lambda$๋ regularization parameter์ด๋ค. ์ด๊ฒ์ ์ธํ ํ๋ผ๋ฏธํฐ์ ๋น์ฉ์ด ์ผ๋ง๋ ์ฆ๊ฐํ๊ฒ ๋ ์ง ๊ฒฐ์ ํ๋ค. ์์ cost function๊ณผ ์ต์ข ์ฒด๋ฅผ ์ฌ์ฉํด์, hypothesis function์ ์ถ๋ ฅ์ ๋ถ๋๋ฝ๊ฒ ํด์ overfitting์ ์ค์ผ ์ ์๋ค. ๋ง์ฝ lambda๊ฐ ๋์ฑ ํฐ ๊ฐ์ผ๋ก ์ ํ๋๋ฉด, ํจ์๋ฅผ ๋๋ฌด ๋ถ๋๋ฝ๊ฒ ๋ง๋ค์ด๋ฒ๋ ค์ underfitting์ ๋ฐ์์ํจ๋ค.
Regularized Linear Regression
์ ๊ทํ๋ฅผ linear regression๊ณผ logistic regression ๋ชจ๋์ ์ ์ฉ์ํฌ ์ ์๋ค. ๋จผ์ linear regression์ ๋ฐฉ์์ผ๋ก ์ ๊ทผํด๋ณด์.
Gradient Descent
๊ธฐ์กด์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์กฐ์ ํด์ $\theta_{0}$์ ๋ถ๋ฆฌํด๋๋ค. ์๋ํ๋ฉด $\theta_{0}$์ ์ฒ๋ฒ์ ๊ฐํ๊ณ ์ถ์ง๋ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
์ฌ๊ธฐ์ $\frac {\lambda}{m} \theta_{j}$์ด ์ ๊ทํ๋ฅผ ์ํํ๋ค. ๋ช ๊ฐ์ ์กฐ์ ๊ณผ ํจ๊ป update rule์ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ ์ ์๋ค.
์ ์์์ ์ฒซ ๋ฒ์งธ ํญ์ธ $1 - \alpha \frac {\lambda}{m}$์ ํญ์ 1๋ณด๋ค ์์ ๊ฐ์ ๊ฐ์ง๋ค. ์ด๋ฅผ ํตํด ์ง๊ด์ ์ผ๋ก ๋งค ์ ๋ฐ์ดํธ๋ง๋ค $\theta_{j}$์ ๊ฐ์ด ์ค์ด๋ ๋ค๊ณ ๋ณผ ์ ์๋ค. ๋ ๋ฒ์งธ ํญ์ ์ด์ ์ ๊ฒ๊ณผ ์์ ํ ๋์ผํ๋ค.
Normal Equation
์ด์ ๋น๋ฐ๋ณต ์ ๊ท ๋ฐฉ์ ์์ ๋์ฒด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ๊ทํ์ ์ ๊ทผํด๋ณด๋๋ก ํ๊ฒ ๋ค. ์ ๊ทํ๋ฅผ ์ถ๊ฐํ๊ธฐ ์ํด, ๊ธฐ์กด์ ๋ฐฉ์ ์๊ณผ ๋๊ฐ์ง๋ง, ๊ดํธ ์์ ๋ค๋ฅธ ํญ์ ์ถ๊ฐ์์ผฐ๋ค.
$L$์ ์ผ์ชฝ ์์ 0์ด ์๊ณ , ๊ทธ ์ธ์ ๋๊ฐ์ ์๋ ๋ชจ๋ 1์ธ ํ๋ ฌ์ด๋ค. ์ด ํ๋ ฌ์ $(n+1) \times (n+1)$์ ์ฐจ์์ ๊ฐ์ง๋ค. ์ง๊ด์ ์ผ๋ก, ์ด๊ฒ์ ํ๋์ ์ค์ $\lambda$๊ฐ ๊ณฑํด์ง ๋จ์ ํ๋ ฌ์ด๋ค$(x_{0}$์ ํฌํจํ์ง ์์ ๋$)$.
๋ง์ฝ $m < n$์ด๋ฉด, $X^{T}X$๋ ๋น๋ฐ๋ณต์ฑ์ด๋ค. ํ์ง๋ง, $\lambda \cdot L$์ ๋ํ๊ฒ ๋๋ฉด, $X^{T}X + \lambda \cdot L$์ ๋น๋ฐ๋ณต์ฑ์ด ๋๋ค.
Regularized Logistic Regression
logistic regression๋ linear regression์ ์ ๊ทํํ๋ ๊ฒ์ฒ๋ผ ๋น์ทํ๊ฒ ์ ๊ทํํ ์ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, overfitting์ ํผํ ์ ์๊ฒ ๋๋ค. ๋ค์์ ๊ทธ๋ฆผ์ ์ ๊ทํ๋ ํจ์$($ํํฌ์ ์ $)$์ด ์ด๋ป๊ฒ ์๋ํ๊ณ , ๋น์ ๊ทํ ํจ์$($ํ๋์ ์ $)$๋ณด๋ค ์ผ๋ง๋ ๋ overfitting๋ ์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
Cost Function
logistic regression์ ๋ํ cost function์ ๊ธฐ์ตํด๋ณด๋๋ก ํ์.
์ด ๋ฐฉ์ ์์ ๋ง์ง๋ง ๋ถ๋ถ์ ํญ์ ์ถ๊ฐํจ์ผ๋ก์จ ์ ๊ทํํ ์ ์๋ค.
๋ ๋ฒ์งธ ์๊ทธ๋ง, $\sum_{j=1}^{n} \theta_{j}^{2}$๋ ํธํฅ ํญ $\theta_{0}$์ ๋ช ์์ ์ผ๋ก ์ ์ธํจ์ ์๋ฏธํ๋ค. $\theta$ ๋ฒกํฐ๋ 0๋ถํฐ n๊น์ง ์ธ๋ฑ์ฑ๋์ด ์๊ณ , ์ด ์๊ทธ๋ง๋ ๋ช ์์ ์ผ๋ก $\theta_{0}$์ ์คํตํจ์ผ๋ก์จ 0์ ์คํตํด์ 1๋ถํฐ n๊น์ง ์ํํ๊ฒ ๋๋ค. ๋ฐ๋ผ์, ๋ฐฉ์ ์์ ๊ณ์ฐํ ๋, ๊ณ์์ ์ผ๋ก ๋ค์์ ๋ ๋ฐฉ์ ์์ ์ ๋ฐ์ดํธํด์ผ ํ๋ค.
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Cost Function & Backpropagation (0) | 2023.03.26 |
---|---|
[Machine Learning] Neural Networks (0) | 2023.03.20 |
[Machine Learning] Multiclass Classification (0) | 2023.03.15 |
[Machine Learning] Classification & Representation (0) | 2023.03.15 |
[Machine Learning] Computing Parameters Analytically (0) | 2023.03.14 |