Classification
๋ถ๋ฅ๋ฅผ ํ๊ธฐ ์ํ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก๋, ์ ํ ํ๊ท๋ฅผ ์ฌ์ฉํด์ 0.5๋ณด๋ค ํฐ ๊ฐ์ 1๋ก, 0.5๋ณด๋ค ์์ ๊ฐ์ 0์ผ๋ก ๋งคํ์ ํ๋ ๋ฐฉ๋ฒ์ด ์๋ค. ํ์ง๋ง, ์ด ๋ฐฉ๋ฒ์ ์ ์๋ํ์ง ์๋๋ฐ, ๋ณดํต ๋ถ๋ฅ ๋ฌธ์ ๊ฐ ์ ํ ํจ์ ๋ฌธ์ ๊ฐ ์๋๊ธฐ ๋๋ฌธ์ด๋ค.
๋ถ๋ฅ ๋ฌธ์ ๋ ์์ธกํ๋ ค๋ ๊ฐ์ด ์์์ ์ด์ฐ๊ฐ๋ง ์ทจํ๋ค๋ ์ ์ ์ ์ธํ๋ฉด ํ๊ท ๋ฌธ์ ์ ๊ฐ๋ค. ์ง๊ธ๋ถํฐ๋ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์ ์ง์คํ ๊ฒ์ด๋ค. ์ด ๋ฌธ์ ์์ $y$๋ 0๊ณผ 1, ์ค์ง ๋ ๊ฐ๋ง ๊ฐ์ง ์ ์๋ค. ์๋ฅผ ๋ค์ด, ์คํธ ๋ถ๋ฅ๊ธฐ๋ฅผ ๋ง๋ ๋ค๊ณ ํ ๋, $x_{i}$๋ ์ด๋ฉ์ผ์ feature๊ฐ ๋๊ณ , $y$๋ ์คํธ ๋ฉ์ผ์ผ ๊ฒฝ์ฐ 1, ์๋ ๊ฒฝ์ฐ 0์ด ๋๋ค. ๊ทธ๋์ $y \in {1, 0}$์ด ๋๋ค. 0์ negative class๋ก ๋ถ๋ฆฌ๊ณ , 1์ positive class๋ก ๋ถ๋ฆฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ค์ ๊ธฐํธ "-"์ "+"๋ก ๋ํ๋ด์ง๊ธฐ๋ ํ๋ค. $x^{(i)}$๊ฐ ์ฃผ์ด์ง๋ฉด, ๊ทธ์ ์์ํ๋ $y^{(i)}$๋ training example์ ์ํ ๋ผ๋ฒจ์ด ๋๋ค.
Hypothesis Representation
$y$๊ฐ ์ด์ฐ๊ฐ์ด๋ผ๋ ์ฌ์ค์ ๋ฌด์ํ๊ณ , ๊ธฐ์กด์ ์ ํ ํ๊ท ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์ ์ฃผ์ด์ง $x$์ ๋ํด $y$๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ์ ๊ทผํด๋ณด์. ๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ์ด ๋งค์ฐ ์ด์ ํ example์ ๊ตฌ์ฑํ๋ ๊ฒ์ ์ฝ๋ค. ์ง๊ด์ ์ผ๋ก, $h_{\theta}(x)$์ ๋ํด 1๋ณด๋ค ํฐ ๊ฐ์ด๋ 0๋ณด๋ค ์์ ๊ฐ์ ๊ฐ์ง ์ ์๋ค. ์๋ํ๋ฉด, $y \in {0,1}$์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ๊ณ ์น๊ธฐ ์ํด, hypothesis $h_{\theta}(x)$์ ํํ๋ฅผ $0 \leq h_{\theta}(x) \leq 1$์ ๋ง์กฑํ๋๋ก ๋ฐ๊ฟ๋ณด์. ์ด๋ Logistic Funtion์ $\theta^{T}x$์ ๋ฃ์์ผ๋ก์จ ์ฑ์ทจํ ์ ์๋ค.
์ด๋ ๊ฒ ์ป๊ฒ ๋ ์๋ก์ด ํ์์ "Sigmoid Function"์ ์ฌ์ฉํ๋ค.
๋ค์์ ๊ทธ๋ฆผ์ sigmoid function์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
ํจ์ $g(z)$๋ ์ด๋ค ์ค์๋ ๊ฐ์ ๋ชจ๋ (0, 1)์ ๋ฒ์์์ผ๋ก ๋งคํํ๋ค. ์ด๋ ์์ ๊ฐ ํจ์๋ฅผ ๋ถ๋ฅ์ ๋ ์ ํฉํ ํจ์๋ก ๋ณํํ๋ ๋ฐ ์ ์ฉํ๋ค.
$h_{\theta}(x)$๋ ์ถ๋ ฅ์ด 1์ผ ํ๋ฅ ์ ์ค๋ค. ์๋ฅผ ๋ค์ด, $h_{\theta}(x) = 0.7$์ผ ๋ 70%์ ํ๋ฅ ๋ก ์ถ๋ ฅ์ด 1์ด๋ผ๋ ํ๋ฅ ์ ์ค๋ค. ์ด ์์์์ ์ถ๋ ฅ์ด 0์ผ ํ๋ฅ ์ 100 - 70์ธ 30%์ด๋ค.
Decision Boundary
๋ถ์ฐ์ 0 ๋๋ 1์ ๋ถ๋ฅ๋ฅผ ์ป๊ธฐ ์ํด, hypothesis function์ ์ถ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ด ๋ณํํ ์ ์๋ค.
์ด๋ฅผ logistic function $g$์ ์ ์ฉํ๋ฉด, ์ ๋ ฅ๊ฐ์ด 0๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์ ๋, ์ถ๋ ฅ๊ฐ์ 0.5๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ๋ค.
๋ค์์ ์์ ๊ธฐ์ตํด๋์.
$g$์ ๋ํ ์ ๋ ฅ๊ฐ์ด $\theta^{T}X$์ด๋ฉด, ์ด๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ด๋ฌํ ์ค์ ์์๋ ์ด์ ์ด๋ ๊ฒ ๋งํ ์ ์๋ค.
decision boundary๋ $y=0$๊ณผ $y=1$๋ก ๊ตฌ๋ถํ๋ ์ ์ด๋ค. ์ด๋ hypothesis function์ ์ํด ๋ง๋ค์ด์ง๊ฒ ๋๋ค.
Example:
์ด ๊ฒฝ์ฐ์ decision boundary๋ ๊ทธ๋ํ์์ $x_{1} = 5$์ธ ์์ง์ ์ ๋ํ๋ธ๋ค. ์ด ์์ง์ ์ ์ผ์ชฝ์ ์๋ ๋ชจ๋ ๊ฐ์ $y=1$์ด๊ณ , ์ค๋ฅธ์ชฝ์ ์๋ ๋ชจ๋ ๊ฐ์ $y=0$์ด๋ค.
๋ค์ ๋งํด์, sigmoid function $g(z)$์ ์ ๋ ฅ์ ์ ํ์ผ ํ์๊ฐ ์๊ณ , ํจ์๊ฐ ์ํ์ด๋ ๋ค๋ฅธ ๋ชจ์์ด์ด๋ ์๊ด ์๋ค!
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Solving the Problem of Overfitting (2) | 2023.03.20 |
---|---|
[Machine Learning] Multiclass Classification (0) | 2023.03.15 |
[Machine Learning] Computing Parameters Analytically (0) | 2023.03.14 |
[Machine Learning] Multivariate Linear Regression (0) | 2023.03.14 |
[Machine Learning] Parameter Learning - Gradient Descent (0) | 2023.03.13 |