Diagnosing Bias vs Variance
์ด ์น์ ์์๋ polynomial d์ hypothesis์ underfitting ํน์ overfitting์ ๊ด๊ณ์ ๋ํด์ ์กฐ์ฌํ์๋ค.
- ์๋ชป๋ ์์ธก์ ๊ณตํํ๋ bias์ variance๋ฅผ ๊ตฌ๋ถํ์๋ค.
- ๋์ bias๋ underfitting์ ์ผ๊ธฐํ๊ณ , ๋์ variance๋ overfitting์ ์ผ๊ธฐํ๋ค. ๋ฐ๋ผ์ ์ด ๋ ๊ฐ์ ํฉ๊ธ ํ๊ท ์ ์ฐพ์์ผ ํ ํ์๊ฐ ์๋ค.
polynomial์ degree d๋ฅผ ์ฆ๊ฐ์ํฌ ์๋ก training error๋ ๊ฐ์ํ๋ ๊ฒฝํฅ์ด ์๋ค. ๋์๊ฐ๋์ cross validation error๋ ์ผ์ ํฌ์ธํธ๊น์ง๋ ๊ฐ์ํ๋ ๊ฒฝํฅ์ด ์๊ณ , ๊ทธ ๋ค์์๋ d๊ฐ์ด ์ค๋ฆ์ ๋ฐ๋ผ ์์นํ๋ฉด์, convex curve๋ฅผ ๋ง๋ค์ด ๋ธ๋ค $($์ต์๊ฐ ๋๋ ์ต๋๊ฐ์ด ํ๋์ธ ์ปค๋ธ$)$.
- High bias$($underfitting$)$: $J_{train}(\theta)$์ $J_{CV}(\theta)$ ๋ ๋ค ๋๋ค. ๋ํ $J_{CV}(\theta) \approx J_{train}(\theta)$
- High variance$($overfitting$)$: $J_{train}(\theta)$๋ ๋ฎ๊ณ , $J_{CV}(\theta)$๋ $J_{train}(\theta)$ ๋ณด๋ค ํจ์ฌ ํฌ๋ค.
์ด๊ฒ์ ์์ฝํ ๊ทธ๋ฆผ์ ๋ค์๊ณผ ๊ฐ๋ค.

Regularization and Bias/Variance

์์ ๊ทธ๋ฆผ์์์ฒ๋ผ $\lambda$๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ง์ ์ ๊ฐ๊น๊ฒ fit๋๋ ๊ฒ์ ์ ์ ์๋ค. ๋ฐ๋๋ก $\lambda$๊ฐ 0์ ๊ทผ์ ํจ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ overfit๋๋ ๊ฒฝํฅ์ด ์๋ค. ์ด๋ป๊ฒ ํ๋ฉด ์ฌ๋ฐ๋ฅธ ํ๋ผ๋ฏธํฐ $\lambda$๋ฅผ ์ป์ ์ ์์๊น? ๊ทธ๋ฌ๊ธฐ ์ํด์๋ ๋ชจ๋ธ๊ณผ ์ ๊ทํ ํญ $\lambda$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ํํด์ผ ํ๋ค.
- lambda ๋ฆฌ์คํธ๋ฅผ ์์ฑํ๋ค.
- ์๋ก ๋ค๋ฅธ degree ํน์ variant๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ ์ธํธ๋ฅผ ๋ง๋ ๋ค.
- $\lambda$๋ฅผ ๋ฐ๋ณตํ๊ณ ๊ฐ $\lambda$์ ๋ํด ๋ชจ๋ ๋ชจ๋ธ์ ๊ฑฐ์ณ ์ผ๋ถ $\theta$๋ฅผ ํ์ตํ๋ค.
- ์ ๊ทํ ๋๋ $\lambda = 0$ ์์ด $J_{CV}(\theta)$์์ ํ์ต๋ $\theta$๋ฅผ ์ฌ์ฉํด์ cross validation ์ค์ฐจ๋ฅผ ๊ณ์ฐํ๋ค.
- cross validation set์์ ๊ฐ์ฅ ๋ฎ์ ์ค์ฐจ๋ฅผ ๋ง๋ค์ด๋ด๋ ์ฝค๋ณด๋ฅผ ์ ํํ๋ค.
- ์ต๊ณ ์ ์ฝค๋ณด $\theta$์ $\lambda$๋ฅผ $J_{test}(\theta)$์ ์ ์ฉํด์ ๋ฌธ์ ์ ์ข์ ์ผ๋ฐํ๋ฅผ ๋ณธ๋ค.
Learning Curves
๋งค์ฐ ์ ์ ์์ ๋ฐ์ดํฐ ํฌ์ธํธ$($์: 1, 2 ๋๋ 3$)$์์ ์๊ณ ๋ฆฌ์ฆ์ ๊ต์กํ๋ฉด ํด๋น ํฌ์ธํธ ์์ ์ ํํ ๋ฟ๋ 2์ฐจ ๊ณก์ ์ ํญ์ ์ฐพ์ ์ ์๊ธฐ ๋๋ฌธ์ ์ฝ๊ฒ ์ค์ฐจ๊ฐ 0์ด ๋๋ค. ๋ฐ๋ผ์:
- training set์ด ์ปค์ง์๋ก 2์ฐจ ํจ์์ ๋ํ ์ค์ฐจ๋ ์ปค์ง๋ค.
- ์ค์ฐจ๊ฐ์ ํน์ m ๋๋ training set ํฌ๊ธฐ๊ฐ ์ง๋ ํ์ ์์ ์ ์ด๋ฅธ๋ค.
Experiencing high bias
- Low training set size: $J_{train}(\theta)$๋ ๋ฎ๊ณ , $J_{CV}(\theta)$๋ ๋์์ง๋ค.
- Large training set size: $J_{train{(\theta)$์ $J_{CV}(\theta)$๋ ๋ ๋ค $J_{train}(\theta) \approx J_{CV}(\theta)$ ์ ๋์์ ๋๋ค.
๋ง์ฝ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด high bias๋ฅผ ๊ฒช๋๋ค๋ฉด, ๋ ๋ง์ training data๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด ๋ณ ๋์์ด ๋์ง ์๋๋ค.

Experiencing high variance
- Low training set size: $J_{train}(\theta)$๋ ๋ฎ๊ณ $J_{CV}(\theta)$๋ ๋๋ค.
- Large training set size: $J_{train}(\theta)$๋ training set size์ ํจ๊ป ์ฆ๊ฐํ๊ณ $J_{CV}(\theta)$๋ ๋ ๋ฒจ๋ง ์คํ ์์ด ๊ณ์ํด์ ๊ฐ์ํ๋ค. ๋ํ $J_{train}(\theta) < J_{CV}(\theta)$์ด์ง๋ง, ๋ ๊ฐ์ ์ฐจ์ด๋ ๋ถ๋ช ํ ์กด์ฌํ๋ค.
๋ง์ฝ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด high variance๋ฅผ ๊ฒช๋๋ค๋ฉด ๋ ๋ง์ training data๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด ๋์์ด ๋๋ค.
Deciding What to do Next Revisited
์ ํ ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ์ด ์ชผ๊ฐ์ง๋ค. ์ฐ์ high variance์ ๊ฒฝ์ฐ ์ด๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ถ์ฒํ๋ค.
- ๋ ๋ง์ training example ๊ฐ์ง๊ธฐ
- feature set๋ฅผ ์ค์ด๊ธฐ
- $\lambda$๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ
๋ฐ๋๋ก high bias์ ๊ฒฝ์ฐ ์ด๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ถ์ฒํ๋ค.
- feature ์ถ๊ฐํ๊ธฐ
- polynomial feature ์ถ๊ฐํ๊ธฐ
- $\lambda$๋ฅผ ๊ฐ์์ํค๊ธฐ
์ ๊ฒฝ๋ง ๋คํธ์ํฌ ์ง๋จ
- ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ underfitting๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค. ํ์ง๋ง ๊ณ์ฐ ๋น์ฉ์ ์ ๋ค.
- ๋ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ํฐ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ overfitting๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค. ํ์ง๋ง ๊ณ์ฐ ๋น์ฉ์ ํฌ๋ค. ์ด ๊ฒฝ์ฐ์๋ ์ ๊ทํ๋ฅผ ์ฌ์ฉ$(\lambda$๊ฐ ์ฆ๊ฐ์ํค๊ธฐ$)$ํ์ฌ overfitting์ ํด๊ฒฐํ ์ ์๋ค.
ํ๋์ hidden layer์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ ์์ ๊ธฐ๋ณธ๊ฐ์ด๋ค. cross validation set๋ฅผ ์ฌ์ฉํด์ ์ฌ๋ฌ ๊ฐ์ hidden layer์์ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ฅผ ํ์ต์ํฌ ์ ์๋ค. ๊ทธ ์ค์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ์ ์ ํํ๋ฉด ๋๋ค.
๋ชจ๋ธ ๋ณต์ก๋ ํจ๊ณผ
- lower-order polynomial$($๋ฎ์ ๋ชจ๋ธ ๋ณต์ก๋$)$์ high bais์ low variance๋ฅผ ๊ฐ์ง๋ค. ์ด ๊ฒฝ์ฐ์ ๋ชจ๋ธ์ ์ผ๊ด์ ์ผ๋ก ์ข์ง ์์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
- higher-order polynomial$($๋์ ๋ชจ๋ธ ๋ณต์ก๋$)$์ training data์๋ ์ ์ ์ฉ๋์ง๋ง, test data์์๋ ์ข์ง ์์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๋ training data์ ๋ํด low bias๋ฅผ ๊ฐ์ง๊ณ high variance๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค.
- ์ค์ ๋ก, ์ ์ผ๋ฐํํ ์ ์์ง๋ง ๋ฐ์ดํฐ์ ํฉ๋ฆฌ์ ์ผ๋ก ์ ๋ง๋ ์ค๊ฐ ์ด๋๊ฐ์ ์๋ ๋ชจ๋ธ์ ์ ํํด์ผ ํ๋ค.
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Machine Learning Algorithm Application (0) | 2023.03.28 |
---|---|
[Machine Learning] Evaluating a Learning Algorithm (0) | 2023.03.27 |
[Machine Learning] Backpropagation in Practice (0) | 2023.03.27 |
[Machine Learning] Cost Function & Backpropagation (0) | 2023.03.26 |
[Machine Learning] Neural Networks (0) | 2023.03.20 |
Diagnosing Bias vs Variance
์ด ์น์ ์์๋ polynomial d์ hypothesis์ underfitting ํน์ overfitting์ ๊ด๊ณ์ ๋ํด์ ์กฐ์ฌํ์๋ค.
- ์๋ชป๋ ์์ธก์ ๊ณตํํ๋ bias์ variance๋ฅผ ๊ตฌ๋ถํ์๋ค.
- ๋์ bias๋ underfitting์ ์ผ๊ธฐํ๊ณ , ๋์ variance๋ overfitting์ ์ผ๊ธฐํ๋ค. ๋ฐ๋ผ์ ์ด ๋ ๊ฐ์ ํฉ๊ธ ํ๊ท ์ ์ฐพ์์ผ ํ ํ์๊ฐ ์๋ค.
polynomial์ degree d๋ฅผ ์ฆ๊ฐ์ํฌ ์๋ก training error๋ ๊ฐ์ํ๋ ๊ฒฝํฅ์ด ์๋ค. ๋์๊ฐ๋์ cross validation error๋ ์ผ์ ํฌ์ธํธ๊น์ง๋ ๊ฐ์ํ๋ ๊ฒฝํฅ์ด ์๊ณ , ๊ทธ ๋ค์์๋ d๊ฐ์ด ์ค๋ฆ์ ๋ฐ๋ผ ์์นํ๋ฉด์, convex curve๋ฅผ ๋ง๋ค์ด ๋ธ๋ค $($์ต์๊ฐ ๋๋ ์ต๋๊ฐ์ด ํ๋์ธ ์ปค๋ธ$)$.
- High bias$($underfitting$)$: $J_{train}(\theta)$์ $J_{CV}(\theta)$ ๋ ๋ค ๋๋ค. ๋ํ $J_{CV}(\theta) \approx J_{train}(\theta)$
- High variance$($overfitting$)$: $J_{train}(\theta)$๋ ๋ฎ๊ณ , $J_{CV}(\theta)$๋ $J_{train}(\theta)$ ๋ณด๋ค ํจ์ฌ ํฌ๋ค.
์ด๊ฒ์ ์์ฝํ ๊ทธ๋ฆผ์ ๋ค์๊ณผ ๊ฐ๋ค.

Regularization and Bias/Variance

์์ ๊ทธ๋ฆผ์์์ฒ๋ผ $\lambda$๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ง์ ์ ๊ฐ๊น๊ฒ fit๋๋ ๊ฒ์ ์ ์ ์๋ค. ๋ฐ๋๋ก $\lambda$๊ฐ 0์ ๊ทผ์ ํจ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ overfit๋๋ ๊ฒฝํฅ์ด ์๋ค. ์ด๋ป๊ฒ ํ๋ฉด ์ฌ๋ฐ๋ฅธ ํ๋ผ๋ฏธํฐ $\lambda$๋ฅผ ์ป์ ์ ์์๊น? ๊ทธ๋ฌ๊ธฐ ์ํด์๋ ๋ชจ๋ธ๊ณผ ์ ๊ทํ ํญ $\lambda$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ํํด์ผ ํ๋ค.
- lambda ๋ฆฌ์คํธ๋ฅผ ์์ฑํ๋ค.
- ์๋ก ๋ค๋ฅธ degree ํน์ variant๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ ์ธํธ๋ฅผ ๋ง๋ ๋ค.
- $\lambda$๋ฅผ ๋ฐ๋ณตํ๊ณ ๊ฐ $\lambda$์ ๋ํด ๋ชจ๋ ๋ชจ๋ธ์ ๊ฑฐ์ณ ์ผ๋ถ $\theta$๋ฅผ ํ์ตํ๋ค.
- ์ ๊ทํ ๋๋ $\lambda = 0$ ์์ด $J_{CV}(\theta)$์์ ํ์ต๋ $\theta$๋ฅผ ์ฌ์ฉํด์ cross validation ์ค์ฐจ๋ฅผ ๊ณ์ฐํ๋ค.
- cross validation set์์ ๊ฐ์ฅ ๋ฎ์ ์ค์ฐจ๋ฅผ ๋ง๋ค์ด๋ด๋ ์ฝค๋ณด๋ฅผ ์ ํํ๋ค.
- ์ต๊ณ ์ ์ฝค๋ณด $\theta$์ $\lambda$๋ฅผ $J_{test}(\theta)$์ ์ ์ฉํด์ ๋ฌธ์ ์ ์ข์ ์ผ๋ฐํ๋ฅผ ๋ณธ๋ค.
Learning Curves
๋งค์ฐ ์ ์ ์์ ๋ฐ์ดํฐ ํฌ์ธํธ$($์: 1, 2 ๋๋ 3$)$์์ ์๊ณ ๋ฆฌ์ฆ์ ๊ต์กํ๋ฉด ํด๋น ํฌ์ธํธ ์์ ์ ํํ ๋ฟ๋ 2์ฐจ ๊ณก์ ์ ํญ์ ์ฐพ์ ์ ์๊ธฐ ๋๋ฌธ์ ์ฝ๊ฒ ์ค์ฐจ๊ฐ 0์ด ๋๋ค. ๋ฐ๋ผ์:
- training set์ด ์ปค์ง์๋ก 2์ฐจ ํจ์์ ๋ํ ์ค์ฐจ๋ ์ปค์ง๋ค.
- ์ค์ฐจ๊ฐ์ ํน์ m ๋๋ training set ํฌ๊ธฐ๊ฐ ์ง๋ ํ์ ์์ ์ ์ด๋ฅธ๋ค.
Experiencing high bias
- Low training set size: $J_{train}(\theta)$๋ ๋ฎ๊ณ , $J_{CV}(\theta)$๋ ๋์์ง๋ค.
- Large training set size: $J_{train{(\theta)$์ $J_{CV}(\theta)$๋ ๋ ๋ค $J_{train}(\theta) \approx J_{CV}(\theta)$ ์ ๋์์ ๋๋ค.
๋ง์ฝ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด high bias๋ฅผ ๊ฒช๋๋ค๋ฉด, ๋ ๋ง์ training data๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด ๋ณ ๋์์ด ๋์ง ์๋๋ค.

Experiencing high variance
- Low training set size: $J_{train}(\theta)$๋ ๋ฎ๊ณ $J_{CV}(\theta)$๋ ๋๋ค.
- Large training set size: $J_{train}(\theta)$๋ training set size์ ํจ๊ป ์ฆ๊ฐํ๊ณ $J_{CV}(\theta)$๋ ๋ ๋ฒจ๋ง ์คํ ์์ด ๊ณ์ํด์ ๊ฐ์ํ๋ค. ๋ํ $J_{train}(\theta) < J_{CV}(\theta)$์ด์ง๋ง, ๋ ๊ฐ์ ์ฐจ์ด๋ ๋ถ๋ช ํ ์กด์ฌํ๋ค.
๋ง์ฝ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด high variance๋ฅผ ๊ฒช๋๋ค๋ฉด ๋ ๋ง์ training data๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด ๋์์ด ๋๋ค.
Deciding What to do Next Revisited
์ ํ ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ์ด ์ชผ๊ฐ์ง๋ค. ์ฐ์ high variance์ ๊ฒฝ์ฐ ์ด๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ถ์ฒํ๋ค.
- ๋ ๋ง์ training example ๊ฐ์ง๊ธฐ
- feature set๋ฅผ ์ค์ด๊ธฐ
- $\lambda$๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ
๋ฐ๋๋ก high bias์ ๊ฒฝ์ฐ ์ด๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ถ์ฒํ๋ค.
- feature ์ถ๊ฐํ๊ธฐ
- polynomial feature ์ถ๊ฐํ๊ธฐ
- $\lambda$๋ฅผ ๊ฐ์์ํค๊ธฐ
์ ๊ฒฝ๋ง ๋คํธ์ํฌ ์ง๋จ
- ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ underfitting๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค. ํ์ง๋ง ๊ณ์ฐ ๋น์ฉ์ ์ ๋ค.
- ๋ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ํฐ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ overfitting๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค. ํ์ง๋ง ๊ณ์ฐ ๋น์ฉ์ ํฌ๋ค. ์ด ๊ฒฝ์ฐ์๋ ์ ๊ทํ๋ฅผ ์ฌ์ฉ$(\lambda$๊ฐ ์ฆ๊ฐ์ํค๊ธฐ$)$ํ์ฌ overfitting์ ํด๊ฒฐํ ์ ์๋ค.
ํ๋์ hidden layer์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ ์์ ๊ธฐ๋ณธ๊ฐ์ด๋ค. cross validation set๋ฅผ ์ฌ์ฉํด์ ์ฌ๋ฌ ๊ฐ์ hidden layer์์ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ฅผ ํ์ต์ํฌ ์ ์๋ค. ๊ทธ ์ค์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ์ ์ ํํ๋ฉด ๋๋ค.
๋ชจ๋ธ ๋ณต์ก๋ ํจ๊ณผ
- lower-order polynomial$($๋ฎ์ ๋ชจ๋ธ ๋ณต์ก๋$)$์ high bais์ low variance๋ฅผ ๊ฐ์ง๋ค. ์ด ๊ฒฝ์ฐ์ ๋ชจ๋ธ์ ์ผ๊ด์ ์ผ๋ก ์ข์ง ์์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
- higher-order polynomial$($๋์ ๋ชจ๋ธ ๋ณต์ก๋$)$์ training data์๋ ์ ์ ์ฉ๋์ง๋ง, test data์์๋ ์ข์ง ์์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๋ training data์ ๋ํด low bias๋ฅผ ๊ฐ์ง๊ณ high variance๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค.
- ์ค์ ๋ก, ์ ์ผ๋ฐํํ ์ ์์ง๋ง ๋ฐ์ดํฐ์ ํฉ๋ฆฌ์ ์ผ๋ก ์ ๋ง๋ ์ค๊ฐ ์ด๋๊ฐ์ ์๋ ๋ชจ๋ธ์ ์ ํํด์ผ ํ๋ค.
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Machine Learning Algorithm Application (0) | 2023.03.28 |
---|---|
[Machine Learning] Evaluating a Learning Algorithm (0) | 2023.03.27 |
[Machine Learning] Backpropagation in Practice (0) | 2023.03.27 |
[Machine Learning] Cost Function & Backpropagation (0) | 2023.03.26 |
[Machine Learning] Neural Networks (0) | 2023.03.20 |