Prioritizing What to Work On
System Desing Example:
์คํธ ๋ฉ์ผ์ ๋ถ๋ฅํ๋ค๊ณ ํ ๋, ์ด๋ฉ์ผ ์ธํธ๊ฐ ์ฃผ์ด์ง๋ฉด ๊ฐ ์ด๋ฉ์ผ์ ๋ํ ๋ฒกํฐ๋ฅผ ๋ง๋ค์ด์ผ ํ๋ค. ์ด ๋ฒกํฐ์ ๊ฐ๊ฐ์ entry๋ ๋จ์ด๋ค์ ๋ํ๋ธ๋ค. ๋ฒกํฐ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ์ ์์ ํํ๊ฒ ๋ฐ๊ฒฌ๋๋ ๋จ์ด๋ค์ ๋ชจ์์ 10,000๊ฐ์์ 50,000๊ฐ์ entry๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋ง์ฝ ์ด๋ฉ์ผ์์ ๋จ์ด๊ฐ ์ฐพ์์ง๋ฉด, ์ด์ ๋ํ entry๋ฅผ 1๋ก ํ๊ณ , ์ฐพ์์ง์ง ์์ผ๋ฉด entry๋ฅผ 0์ผ๋ก ํ๋ค. $x$ ๋ฒกํฐ๋ค์ด ๋ชจ๋ ์ค๋น๋๋ฉด ์๊ณ ๋ฆฌ์ฆ์ ํ์ต์ํค๊ณ ์ต์ข ์ ์ผ๋ก ์ด๋ฉ์ผ์ ์ ์ฉํด์ ์คํธ์ธ์ง ์๋์ง๋ฅผ ๋ถ๋ฅํ๋๋ฐ ์ฌ์ฉํ๋ค.
์ด๋ป๊ฒ ํ๋ฉด ๋ถ๋ฅ๊ธฐ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๊น?
- ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ
- ์ ๊ตํ feature ์ฌ์ฉ$($ex. ์คํธ ๋ฉ์ผ์ ์ด๋ฉ์ผ ํค๋ ์ฌ์ฉ$)$
- ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ ์์ผ์ ์ ๋ ฅ๊ฐ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌ$($์คํธ ๋ฉ์ผ์์ misspelling์ ์ธ์ํ๊ฒ ํ๊ธฐ$)$
์ด๋ ํ ์ต์ ์ด ๋ ๋์์ด ๋๋์ง๋ ๋จ์ธํ ์ ์๋ค..
Error Analysis
๋จธ์ ๋ฌ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ถ์ฒ๋ ๋ฐฉ๋ฒ๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ฐ๋จํ ์๊ณ ๋ฆฌ์ฆ์์ ์์ํด์ ๋น ๋ฅด๊ฒ ๊ตฌํํ๊ณ cross validation data์์ ํ ์คํธ๋ฅผ ํ๋ค.
- learning curve๋ฅผ ๊ทธ๋ ค์ ๋ ๋ง์ ๋ฐ์ดํฐ ๋๋ ๋ ๋ง์ feature๊ฐ ๋์์ด ๋ ์ง๋ฅผ ํ์ ํ๋ค.
- cross validation set์ example์์ ๋ฐ์ํ ์ค๋ฅ๋ค์ ๊ฒ์ฌํ๊ณ ๊ฐ์ฅ ๋ง์ ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ ๋ถ๋ถ์ ๊ฒฝํฅ์ ํ์ ํ๋ค.
์๋ฅผ ๋ค์ด 500๊ฐ์ ์ด๋ฉ์ผ example์์ 100๊ฐ์ ์ด๋ฉ์ผ์ ์๋ชป ๋ถ๋ฅํ๋ค๊ณ ํด๋ณด์. ๊ทธ๋ฌ๊ณ ์ด ์๋ชป ๋ถ๋ฅ๋ 100๊ฐ์ ์ด๋ฉ์ผ์ ๋ถ์ํด์ ์ด๋ค ์ ํ์ ์ด๋ฉ์ผ๋ค์ธ์ง ๋ถ๋ฅํด๋ณด์. ์๋ก์ด ์ ํธ์ feature๋ฅผ ์ฌ์ฉํด์ ์ด 100๊ฐ์ ์ด๋ฉ์ผ์ ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅํ๋๋ก ๋์์ ์ฃผ๋๋ก ํ๋ค. ๋ฐ๋ผ์ ๋๋ถ๋ถ์ ์๋ชป ๋ถ๋ฅ๋ ์ด๋ฉ์ผ์ ๋น๋ฐ๋ฒํธ๋ฅผ ํ์น๋ ค ํ๋ค. ๊ทธ๋ฐ ๋ค์ ํด๋น ์ด๋ฉ์ผ์ ํน์ ํ ๋ช ๊ฐ์ง feature๋ฅผ ์ฐพ์ ๋ชจ๋ธ์ ์ถ๊ฐํ ์ ์๋ค. ๋ํ ์ด๊ทผ์ ๋ฐ๋ผ ๊ฐ ๋จ์ด๋ฅผ ๋ถ๋ฅํ๋ฉด ์ค๋ฅ์จ์ด ์ด๋ป๊ฒ ๋ณํ๋์ง ํ์ธํ ์ ์๋ค.
์ค๋ฅ์จ์ ํ๋์ ์ค์ ๊ฐ์ผ๋ก ๊ฐ์ง๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ๋ค. ๊ทธ ์ธ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ฒ์ ํ๋ค๋ค. ์๋ฅผ ๋ค์ด ๋จ์ด์ ๋ํด stemming์ ์ฌ์ฉํ๋ฉด 5%์ ์ค๋ฅ์จ ๋์ ์ 3%์ ์ค๋ฅ์จ์ ๊ฐ๊ฒ ๋๋ค๊ณ ํ๋ฉด ๋ชจ๋ธ์ ์ด stemming์ ์ถ๊ฐํด์ผ ํ๋ค. ํ์ง๋ง ๋๋ฌธ์์ ์๋ฌธ์๋ฅผ ๊ตฌ๋ถํ์ ๋ 3%์ ์ค๋ฅ์จ ๋์ ์ 3.2%์ ์ค๋ฅ์จ์ ๊ฐ๊ฒ ๋๋ค๋ฉด ์ด feature์ ์ฌ์ฉํ๋ ๊ฒ์ ํผํด์ผ ํ๋ค. ๋ฐ๋ผ์ ์๋ก์ด ๊ฒ์ ์๋ํ๊ณ , ์ค๋ฅ์จ์ ๋ํ ์์น๋ฅผ ์ป๊ณ , ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ์๋ก์ด feature๋ฅผ ์ ์งํ ์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํด์ผ ํ๋ค.
'Lecture ๐งโ๐ซ > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] Bias vs Variance (0) | 2023.03.27 |
---|---|
[Machine Learning] Evaluating a Learning Algorithm (0) | 2023.03.27 |
[Machine Learning] Backpropagation in Practice (0) | 2023.03.27 |
[Machine Learning] Cost Function & Backpropagation (0) | 2023.03.26 |
[Machine Learning] Neural Networks (0) | 2023.03.20 |