Multiple Features
์ฌ๋ฌ ๋ณ์๋ค์ ์ด์ฉํ ์ ํ ํ๊ท๋ฅผ "multivariate linear regression"์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด์ ์ ๋ ฅ ๋ณ์๋ฅผ ์ผ๋ง๋ ์ง ๊ฐ์ง ์ ์๋ ๋ฐฉ์ ์์ ๋ํ ํ๊ธฐ๋ฒ์ ์๊ฐํ๋๋ก ํ๊ฒ ๋ค.
hypothesis function์ ๋ค๋ณ์ ํํ๋ ๋ค์๊ณผ ๊ฐ์ด ์ฌ๋ฌ feature๋ค์ ์์ฉํ๋ค.
$h_{\theta}(x) = \theta_{0} + \theta_{1}x_{1} + \theta_{2}x_{2} + \theta_{3}x_{3} + \cdots + \theta_{n}x_{n}$
์ ์์์ ๋ํ ์ดํด๋ฅผ ๋๊ธฐ ์ํด ์ง ๊ฐ๊ฒฉ ์ ์์๋ฅผ ์ ์ฉํด๋ณด๋ฉด, $\theta_{0}$์ ์ผ๋ฐ์ ์ธ ์ง ๊ฐ๊ฒฉ, $\theta_{1}$์ ์ ๊ณฑ ๋ฏธํฐ ๋น ๊ฐ๊ฒฉ, $\theta_{2}$์ ์ธต ์ ๋น ๊ฐ๊ฒฉ์ ๋ปํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ฌ๊ธฐ์ $x_{1}$์ ์ง์ ์ ๊ณฑ ๋ฏธํฐ ํฌ๊ธฐ๋ฅผ ์๋ฏธํ๊ณ , $x_{2}$์ ์ธต์ ์๋ฅผ ์๋ฏธํ๋ค.
ํ๋ ฌ๊ณฑ์ ๊ฐ๋ ์ ์ด์ฉํ์ฌ ๋ค๋ณ์ hypothesis function์ ์ ์ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ ์์์ ํ๋์ training example์ ๋ํ hypothesis function์ ๋ฒกํฐํ์ด๋ค.
Gradient Descent For Multiple Variables
๋ค๋ณ์๊ฐ ๋๋ค๊ณ ํด์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๋ฐฉ์ ์์ ํํ๋ ์ ์ง๋๋ค. ๊ทธ์ $n$๊ฐ์ feature์ ๋ํด ๋ฐ๋ณตํ ๋ฟ์ด๋ค.
์ด๋ฅผ ๋ค๋ฅด๊ฒ ์์ฑํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
๋ค์์ ๊ทธ๋ฆผ์ ๋จ์ผ ๋ณ์ ๊ฒฝ์ฌ ํ๊ฐ ๋ฐฉ์ ์๊ณผ ๋ค๋ณ์ ๊ฒฝ์ฌ ํ๊ฐ ๋ฐฉ์ ์์ ๋น๊ตํ๊ณ ์๋ค.
Gradient Descent - Feature Scaling
๊ฐ๊ฐ์ ์ ๋ ฅ ๋ณ์๋ค์ ๋๊ฐ์ ๋ฒ์์ ๋ ์ผ๋ก์จ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ ์ ์๋ค. ์ด๋ $\theta$๊ฐ ์์ ๋ฒ์ ๋ด์์๋ ๋น ๋ฅด๊ฒ ํ๊ฐํ๊ฒ ๋๊ณ , ๋์ ๋ฒ์์ ๋ํด์๋ ์ฒ์ฒํ ํ๊ฐํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ๋ณ์๊ฐ ๋งค์ฐ ๊ณ ๋ฅด์ง ์์ ๋ ๋นํจ์จ์ ์ผ๋ก ์ง๋ํ๊ฒ ๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ์ ๋ ฅ ๋ณ์์ ๋ฒ์๋ฅผ ์กฐ์ ํด์ ๋ชจ๋ ๋๊ฐ๊ฒ ๋ง๋๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด $-1 \leq x_{(i)} \leq 1$ ๋๋ $-0.5 \leq x_{(i)} \leq 0.5$์ ๋ฒ์๋ฅผ ์ ํ๋ ๊ฒ์ด๋ค!
์ด๊ฒ์ ๊ผญ ์๊ตฌ๋๋ ๊ฒ์ ์๋์ง๋ง, ์๋๋ฅผ ์ฌ๋ฆฌ๊ธฐ ์ํด์๋ ์๊ตฌ๋๋ค. ์ด ๊ณผ์ ์ ๋ชฉํ๋ ๋ชจ๋ ์ ๋ ฅ ๋ณ์๋ค์ ์ด ๋ฒ์์์ ์ง์ด๋ฃ๋ ๊ฒ์ด๋ค.
์ด ๊ณผ์ ์ ๋์์ฃผ๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋๋ฐ feature scaling๊ณผ mean normalization์ด ์๋ค.
- feature scaling์ ์ ๋ ฅ ๋ณ์๋ค์ ์ ๋ ฅ ๋ณ์์ ๋ฒ์์ ์ํด ๋๋์ผ๋ก์จ 1์ ๋ฒ์๋ฅผ ๊ฐ์ง๋ ์๋ก์ด ๋ฒ์๋ฅผ ๋์ถํด๋ด๋ ๊ฒ์ด๋ค.
- mean normalization์ ํด๋น ์ ๋ ฅ ๋ณ์์ ๊ฐ์์ ์ ๋ ฅ ๋ณ์์ ํ๊ท ๊ฐ์ ๋นผ์ ์ ๋ ฅ ๋ณ์์ ์๋ก์ด ํ๊ท ๊ฐ์ 0์ผ๋ก ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค.
์ด ๋ ๋ฐฉ๋ฒ์ ์ ์ฉํ๊ธฐ ์ํด์๋ ์ ๋ ฅ ๋ณ์๋ฅผ ๋ค์์ ์์์ผ๋ก ์กฐ์ ํด์ผ ํ๋ค.
$x_{i} := \frac {x_{i} - \mu_{i}}{s_{i}}$
์ฌ๊ธฐ์ $\mu_{i}$๋ feature $(i)$์ ๋ํ ๋ชจ๋ ๊ฐ๋ค์ ํ๊ท ์ด๊ณ , $s_{i}$๋ ๊ฐ์ ๋ฒ์$(max - min)$์ด๊ฑฐ๋ ํ์ค ํธ์ฐจ์ด๋ค. ๋ฒ์ ๋๋ ํ์ค ํธ์ฐจ, ๋ ์ค ๋ฌด์์ ์ํด ๋๋ ์ง๋์ ๋ฐ๋ผ์ ๋ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ ์ฃผ์ด์ง๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด $x_{i}$๊ฐ 100๋ถํฐ 2000 ๊น์ง์ ์ง ๊ฐ์ ๋ํ๋ด๊ณ , ํ๊ท ๊ฐ์ด 1000์ผ ๋, $x_{i}$๋ ๋ค์๊ณผ ๊ฐ๋ค.
$x_{i} := \frac {price - 1000}{1900}$
Gradient Descent - Learning Rate
Debugging gradient descent. $x$์ถ์ ๋ฐ๋ณต์ ์๋ฅผ ๋ํ๋ด๋ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค๋ณด์. ์ด์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๋ฐ๋ณต ํ์์ ๋ํ cost function $J(\theta)$๋ฅผ ๊ทธ๋ ค๋ณด์. $J(\theta)$๊ฐ ์์นํ๊ฒ ๋๋ฉด, $\alpha$์ ๊ฐ์ ์ค์ฌ์ผ ํ ํ์๊ฐ ์๋ค.
Automatic convergence test. ํ ๋ฐ๋ณต์์ $J(\theta)$์ ๊ฐ์ด $10^{-3}$๊ฐ์ด ๋งค์ฐ ์์ ๊ฐ์ธ $E$๋ณด๋ค ์ ๊ฒ ์ค์ด๋ ๋ค๋ฉด ์๋ ด์ด๋ผ๊ณ ์ ์ํด์ผ ํ๋ค. ํ์ง๋ง, ์ค์ ์์ ์ด ๊ธฐ์ค๊ฐ์ ์ ํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ต๋ค..
learning rate $\alpha$๊ฐ ์ถฉ๋ถํ ์๋ค๋ฉด, $J(\theta)$๋ ๋งค ๋ฐ๋ณต์์ ์ค์ด๋ค๊ฒ ๋๋ค.
์ด๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- $\alpha$๊ฐ ๋๋ฌด ์์ ๋: ์ฒ์ฒํ ์๋ ด
- $\alpha$๊ฐ ๋๋ฌด ํด ๋: ๋งค ๋ฐ๋ณต๋ง๋ค ์ค์ด๋ค์ง ์์ ์ ์๊ณ , ๊ฒฐ๊ตญ ์๋ ดํ์ง ์์ ์๋ ์์
Features & Polynomial Regression
feature์ hypothesis function์ ํํ๋ฅผ ๋ค์์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ํฅ์์ํฌ ์ ์๋ค. ๊ทธ ์ค ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ feature์ ํ๋๋ก ๋ฌถ์ ์ ์๋ค. ์๋ฅผ ๋ค์ด, $x_{1}$๊ณผ $x_{2}$๋ฅผ $x_{1} \cdot x_{2}$์ ํตํด ์๋ก์ด feature $x_{3}$๋ฅผ ์ป์ด๋ผ ์ ์๋ค.
Polynomial Regression
hypothesis function์ด ๊ผญ ์ ํ์ผ ํ์๋ ์๋ค. ๋ง์ฝ ์ง์ ์ด ๋ฐ์ดํฐ์ ์ ๋ง์ง ์๋ค๋ฉด ๋ค๋ฅธ ํํ์ฌ๋ ๋๋ค. ์ด๋ฅผ ์ํด hypothesis function์ ํน์ฑ๊ณผ ๊ณก์ ์ ์ ๊ณฑ ๋๋ ์ธ์ ๊ณฑ, ์ ๊ณฑ๊ทผ์ ์ฌ์ฉํ์ฌ ๋ฐ๊ฟ ์ ์๋ค.
์๋ฅผ ๋ค์ด, hypothesis function์ด $h_{\theta}(x) = \theta_{0} + \theta_{1}x_{1}$์ผ ๋, $x_{1}$์ ๊ธฐ๋ฐํด์ ์๋ก์ดfeature์ ์ถ๊ฐํด์ ์ด์ฐจ ํจ์ $h_{\theta}(x) = \theta_{0} + \theta_{1}x_{1} + \theta_{2}x_{1}^{2}$ ๋๋ ์ผ์ฐจ ํจ์ $h_{\theta}(x) = \theta_{0} + \theta_{1}x_{1} + \theta_{2}x_{1}^{2} + \theta_{3}x_{1}^{3}$์ ์ป์ ์๋ ์๋ค.
์ผ์ฐจ ํจ์์ ๊ฒฝ์ฐ์ ์๋ก์ด feature $x_{2}$์ $x_{3}$๋ฅผ $x_{2} = x_{1}^{2}$๊ณผ $x_{3} = x_{1}^{3}$์ ํตํด ๋ง๋ค์ด๋ผ ์ ์๋ค.
์ด๋ฅผ ์ ๊ณฑ๊ทผ ํจ์๋ก ๋ง๋ค๊ธฐ ์ํด์๋ ๋ค์์ ํด์ฃผ๋ฉด ๋๋ค: $h_{\theta}(x) = \theta_{0} +\theta_{1}x_{1} + \theta_{2} \sqrt{x_{1}}$
ํ ๊ฐ์ง ๊ธฐ์ตํด์ผ ํ ์ ์ feature์ ์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์ ํํ์ ๋, feature scaling์ด ๋งค์ฐ ์ค์ํด์ง๋ค๋ ๊ฒ์ด๋ค!
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Classification & Representation (0) | 2023.03.15 |
---|---|
[Machine Learning] Computing Parameters Analytically (0) | 2023.03.14 |
[Machine Learning] Parameter Learning - Gradient Descent (0) | 2023.03.13 |
[Machine Learning] Model & Cost Function (0) | 2023.03.13 |
[Machine Learning] What is Machine Learning? - Supervised Learning & Unsupervised Learning (0) | 2023.03.13 |