Why I studied Embedding Matrix?
NLP ๋ถ์ผ์์ ์ค์ํ๊ฒ ์ฌ์ฉ๋๋ Emebedding Matrix๋ค์ ๋ํด ํ์ต์ ํ์๋ค. Embedding Matrix๋ฅผ ํตํด ๋ฌธ์ฅ์์ ์ด๋ ํ ๋จ์ด๋ ๋ฌธ์ฅ์ด ์ผ๋ง๋ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋์ง๋ฅผ ๊ณ์ฐํ ์ ์๊ฒ ๋๋ค.
(์์ ): ELMo, BERT, GPT-1์ ๋ฐ๋ก ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ก ์ฌ๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค.
Table of Contents
1. What is Language Model?
2. Count based word representation
2-1. TF-iDF
3. Word Embedding
3-1. Word2Vec
3-2. GloVe
1. What is Language Model?
์ธ์ด ๋ชจ๋ธ (Language Model)์ด๋, ์ธ์ด๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ๋จ์ด ์ํ์ค(๋ฌธ์ฅ)์ ํ๋ฅ ์ ํ ๋นํ๋ ๋ชจ๋ธ์ ๋งํ๋ค. ์ด ์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณ๋ฅผ ํ์ฉํ ๋ชจ๋ธ๊ณผ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ด์ฉํ ๋ชจ๋ธ๋ก ๋๋ ์ ์๋ค.
์์์์ฒ๋ผ ์ธ์ด ๋ชจ๋ธ์ ๋จ์ด ์ํ์ค์ ํ๋ฅ ์ ํ ๋นํ๋ ์ผ์ ํ๋๋ฐ, ์ด๋ฅผ ํ์ด์ ์ค๋ช ํ๋ฉด ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ๋จ์ด ์ํ์ค๋ฅผ ์ฐพ๋ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ธ์ด ๋ชจ๋ธ๋ง(Language Modeling)์ ์ฃผ์ด์ง ๋จ์ด๋ค์ ์ด์ฉํ์ฌ ์์ง์ ๋ชจ๋ฅด๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ์์ ์ ๋งํ๋ค. ํ๋ง๋๋ก, ์ด์ ์ ๋จ์ด๋ค์ ์ด์ฉํ์ฌ ๋ค์์ ๋จ์ด๋ฅผ ์์ธกํ๋ ์ผ์ด๋ค. ์ธ์ด ๋ชจ๋ธ๋ง์ ๊ณผ์ ์ ๊ฐ๋จํ๊ฒ ๋ํ๋ด๋ฉด ๊ธฐ๊ณ์๊ฒ ์ด๋ค ๋ฌธ์ฅ์ด ์ฃผ์ด์ก์ ๋, ๋ฌธ์ฅ์ ์์ ์ด๋ค ๋จ์ด๋ค์ด ๋์๋์ง ๊ณ ๋ คํด์ ํ๋ณด๊ฐ ๋ ์ ์๋ ์ฌ๋ฌ ๋จ์ด๋ค์ ๋ํด ํ๋ฅ ์ ์์ธกํ๊ณ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ๊ฐ์ง ๋จ์ด๋ฅผ ์ ํํ๋ ๊ณผ์ ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
ํต๊ณ์ ์ธ์ด ๋ชจ๋ธ(Statistical Language Model, SLM)
LM์ ์ ํต์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํต๊ณ์ ์ธ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ด์ฉํ์ฌ ์ธ์ด๋ฅผ ๋ชจ๋ธ๋งํ๋ค.
๊ฐ ๋จ์ด๋ ๋ฌธ๋งฅ์ด๋ผ๋ ๊ด๊ณ๋ก ์ธํด ์ด์ ๋จ์ด์ ์ํฅ์ ๋ฐ์์ ๋์จ ๋จ์ด์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ ๋จ์ด๋ก๋ถํฐ ํ๋์ ๋ฌธ์ฅ์ด ์์ฑ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋ฌธ์ฅ์ ํ๋ฅ ์ ๊ตฌํ๊ณ ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ์ฉํ๋ค. ์๋์ ์์ ๋ฌธ์ฅ์ ํ๋ฅ ๊ด์ ์ผ๋ก ์ ์ผ๋ฉด ๋ฌธ์ฅ์ ํ๋ฅ ์ ๊ฐ ๋จ์ด๋ค์ด ์ด์ ๊ฐ์ด๊ฐ ์ฃผ์ด์ก์ ๋, ๋ค์ ๋จ์ด๋ก ๋ฑ์ฅํ ํ๋ฅ ์ ๊ณฑ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
SLM์ ์ด์ ๋จ์ด๋ก๋ถํฐ ๋ค์ ๋จ์ด์ ๋ํ ํ๋ฅ ์ ๊ตฌํ ๋, ์นด์ดํธ์ ๊ธฐ๋ฐํ์ฌ ํ๋ฅ ์ ๊ณ์ฐํ๋ค. ๊ทธ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค. ์๋ฅผ ๋ค์ด์ ๊ธฐ๊ณ๊ฐ ํ์ตํ ์ฝํผ์ค์์ n-1 ๋ฒ์งธ์ ๋จ์ด๊น์ง๊ฐ ํฌํจ๋ ๋ฌธ์ฅ์ด 100๋ฒ ๋ฑ์ฅํ์ ๋ ๋ค์์ n๋ฒ์งธ ๋จ์ด๊ฐ ๋ฑ์ฅํ ๊ฒฝ์ฐ๊ฐ 40์ด๋ผ๊ณ ํ ๋, n-1๋ฒ์งธ ๋จ์ด๊น์ง ํฌํจ๋ ๋ฌธ์ฅ์ด ๋์์ ๋, ๋ค์์ n๋ฒ์งธ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ ์ 40%์ธ ๊ฒ์ด๋ค.
ํ์ง๋ง, ์ด ์นด์ดํธ ๊ธฐ๋ฐ ์ ๊ทผ์๋ ํ๊ณ๊ฐ ์กด์ฌํ๋๋ฐ ๋ฐ๋ก ํฌ์ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ด๋ค. ํฌ์ ๋ฌธ์ ๋ ์๋ฅผ ๋ค์ด ๊ธฐ๊ณ๊ฐ ํ๋ จํ ์ฝํผ์ค์ ์๋ ๋ฌธ์ฅ์ด ์ฃผ์ด์ง๋ฉด ๋ถ๋ชจ๋ 0์ด ๋์ด ํ๋ฅ ์ด ์ ์๋์ง ์๋๋ค. ์ด์ ๊ฐ์ด ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ๊ด์ธกํ์ง ๋ชปํด ์ธ์ด๋ฅผ ์ ํํ ๋ชจ๋ธ๋งํ์ง ๋ชปํ๋ ๋ฌธ์ ๋ฅผ ํฌ์ ๋ฌธ์ ๋ผ๊ณ ํ๋ค.
N-gram ์ธ์ด ๋ชจ๋ธ(N-gram Language Model)
n-gram ๋ชจ๋ธ์ ์ฌ์ ํ ์นด์ดํธ์ ๊ธฐ๋ฐํ ํต๊ณ์ ์ ๊ทผ์ ์ฌ์ฉํ๊ณ ์์ผ๋ฏ๋ก SLM์ ์ผ์ข ์ด์ง๋ง, ์์ ์ค๋ช ํ ์ธ์ด ๋ชจ๋ธ๊ณผ๋ ๋ฌ๋ฆฌ ์ด์ ์ ๋ฑ์ฅํ ๋ชจ๋ ๋จ์ด๋ฅผ ๊ณ ๋ คํ๋ ๊ฒ์ด ์๋๋ผ ์ผ๋ถ ๋จ์ด๋ง ๊ณ ๋ คํ๋ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ์ n์ ์ผ๋ถ ๋จ์ด๋ฅผ ๋ช ๊ฐ๋ฅผ ๋ณด๋๋๋ฅผ ๊ฒฐ์ ํ๋ ์ธ์์ด๋ค.
n-gram ๋ชจ๋ธ์ ์ฝํผ์ค์์ ์นด์ดํธํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ์ ๊ฐ์๋ฅผ ์ํด์ ๋ง๋ค์ด์ง ๋ชจ๋ธ๋ก, ๋จ์ด์ ํ๋ฅ ์ ๊ตฌํ ๋ ๊ธฐ์ค ๋จ์ด์ ์ ๋จ์ด๋ฅผ ์ ๋ถ ํฌํจํด์ ์นด์ดํธํ๋ ๊ฒ์ด ์๋๋ผ, ์ ๋จ์ด ์ค ์์์ ๊ฐ์๋ง ํฌํจํด์ ์นด์ดํธํด ๊ทผ์ฌํ์๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ฐ๊ณ ์๋ ์ฝํผ์ค์์ ํด๋น ๋จ์ด์ ์ํ์ค๋ฅผ ์นด์ดํธํ ํ๋ฅ ์ด ๋์์ง๋ค.
์ด๋ ์์์ ๊ฐ์๋ฅผ ์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ๊ฒ์ด n-gram์ด๋ค. ๊ฐ๊ณ ์๋ ์ฝํผ์ค์์ n๊ฐ์ ๋จ์ด ๋ญ์น ๋จ์๋ก ๋์ด์ ์ด๋ฅผ ํ๋์ ํ ํฐ์ผ๋ก ๊ฐ์ฃผํ๋ค. n-gram์ ์ฌ์ฉํ ๋ ๋ช ์นญ์ ๋ค์๊ณผ ๊ฐ๋ค.
- n = 1: unigram / n = 2: bigram / n = 3: trigram / n = 4, 5, ..., n: n-gram
n-gram์ ํตํ ์ธ์ด ๋ชจ๋ธ์์๋ ๋ค์์ ๋์ฌ ๋จ์ด์ ์์ธก์ ์ค์ง n-1๊ฐ์ ๋จ์ด์๋ง ์์กดํ๋ค. ์๋ฅผ ๋ค์ด 'I have an apple and'๋ผ๋ ๋ฌธ์ฅ์ด ์์ ๋, n=4๋ผ๊ณ ํ๋ 4-gram์ผ๋ก ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค๊ณ ํ ๋, and ๋ค์์ ์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ฒ์ n-1์ ํด๋นํ๋ 3๊ฐ์ ๋จ์ด๋ง์ ๊ณ ๋ คํ๋ค. --> 'an apple and'๋ง ์ฌ์ฉ
ํ์ง๋ง n-gram์๋ ํ๊ณ๊ฐ ์กด์ฌํ๋๋ฐ ๋ค์์ด n-gram model์ ํ๊ณ์ ์ ๋ณด์ฌ์ค๋ค.
- ํฌ์ ๋ฌธ์ (Sparsity Problem): n-gram model๋ ์ผ๋ถ์ ๋จ์ด๋ง ๋ณด๋ ๊ฒ์ผ๋ก ํฌ์ ๋ฌธ์ ๋ฅผ ์ฝ์ํ๊ฒ๋๋ง ํด๊ฒฐํ์์ง๋ง, ๊ทธ๋๋ ์์ง ์กด์ฌํ๋ค.
- n์ ์ ํํ๋ ๊ฒ์ trade-off ๋ฌธ์ : n์ ํฌ๊ฒ ์ ํํ๋ฉด ์ค์ ํ๋ จ ์ฝํผ์ค์์ ํด๋น n-gram์ ์นด์ดํธํ ์ ์๋ ํ๋ฅ ์ ์ ์ด์ง๋ฏ๋ก ํฌ์ ๋ฌธ์ ๋ ์ ์ ์ฌ๊ฐํด์ง๋ค. ๋ํ n์ด ์ปค์ง์๋ก ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ์ปค์ง๋ค๋ ๋ฌธ์ ์ ๋ ์๋ค. ๋ฐ๋ฉด์ n์ ์๊ฒ ์ ํํ๋ฉด ํ๋ จ ์ฝํผ์ค์์ ์นด์ดํธ๋ ์ ๋๊ฒ ์ง๋ง ๊ทผ์ฌ์ ์ ํ๋๋ ํ์ค์ ํ๋ฅ ๋ถํฌ์ ๋ฉ์ด์ง๋ค. ๋ฐ๋ผ์ ์ ํ๋๋ฅผ ๋์ด๋ ค๋ฉด n์ ์ต๋ 5๋ฅผ ๋์ด์๋ ์ ๋๋ค๊ณ ๊ถ์ฅํ๋ค.
2. Count based word representation
ํ ์คํธ๋ฅผ ์์นํ๋ฅผ ํตํด ํต๊ณ์ ์ ๊ทผ ๋ฐฉ๋ฒ์ผ๋ก ์ฌ๋ฌ ๋ฌธ์๋ก ์ด๋ฃจ์ด์ง ํ ์คํธ ๋ฐ์ดํฐ๊ฐ ์์ ๋ ์ด๋ค ๋จ์ด๊ฐ ํน์ ๋ฌธ์ ๋ด์์ ์ผ๋ง๋ ์ค์ํ ๊ฒ์ธ์ง๋ฅผ ๋ํ๋ธ๋ค.
2-1. TF-iDF(๋จ์ด ๋น๋-์ญ ๋ฌธ์ ๋น๋, Term Frequency-Inverse Document Frequency)
TF-iDF๋ ๋จ์ด์ ๋น๋์ ์ญ ๋ฌธ์ ๋น๋๋ฅผ ์ฌ์ฉํด DTM๋ด ๊ฐ ๋จ์ด๋ค๋ง๋ค ์ค์ํ ์ ๋๋ฅผ ๊ฐ์ค์น๋ก ์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ค. TF-iDF๋ TF์ iDF๋ฅผ ๊ณฑํ ๊ฐ์ ์๋ฏธํ๋๋ฐ ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์์ผ๋ก ํํํด ๋ณด์๋ค. d: ๋ฌธ์, t: ๋จ์ด, n: ๋ฌธ์์ ์ด ๊ฐ์
- tf(d, t): ํน์ ๋ฌธ์ d์์ ํน์ ๋จ์ด t์ ๋ฑ์ฅ ํ์
- df(t): ํน์ ๋จ์ด t๊ฐ ๋ฑ์ฅํ ๋ฌธ์์ ์
- idf(d, t): df(t)์ ๋ฐ๋น๋กํ๋ ์. iDF๋ ๋ง ๊ทธ๋๋ก DF์ ์ญ์๋ฅผ ์ทจํ๋ ๊ฒ์ธ๋ฐ log์ ๋ถ๋ชจ์ 1์ ๋ํด์ฃผ๋ ์์ ์ฌ์ฉํ๋ค. ์ด๋ log๋ฅผ ์ฌ์ฉํ์ง ์์ผ๋ฉด ์ด๋ฌธ์์ ์ n์ด ์ปค์ง์๋ก iDF์ ๊ฐ์ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ปค์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ log๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
TF-iDF๋ ๋ชจ๋ ๋ฌธ์์์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ ์ค์๋๊ฐ ๋ฎ๋ค๊ณ ํ๋จํ๊ณ , ํน์ ๋ฌธ์์์๋ง ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ ์ค์๋๊ฐ ๋๋ค๊ณ ํ๋จํ๋ค. ํ๋ง๋๋ก, TF-iDF ๊ฐ์ด ๋ฎ์ผ๋ฉด ์ค์๋๊ฐ ๋ฎ์ ๊ฒ์ด๋ฉฐ, TF-iDF ๊ฐ์ด ํฌ๋ฉด ์ค์๋๊ฐ ํฐ ๊ฒ์ด๋ค.
3. Word Embedding
์๋ ์๋ฒ ๋ฉ(Word Embedding)์ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋จ์ด๋ฅผ ๋ฐ์ง ํํ์ผ๋ก ๋ณํํ๋ค.
๋ฐ์ง ํํ์ ํฌ์ ํํ๊ณผ ๋ฐ๋๋๋ ํํ์ผ๋ก, ๋ฒกํฐ์ ์ฐจ์์ ๋จ์ด ์งํฉ์ ํฌ๊ธฐ๋ก ์์ ํ์ง ์๊ณ , ์ฌ์ฉ์๊ฐ ์ค์ ํ ๊ฐ์ผ๋ก ๋ชจ๋ ๋จ์ด์ ๋ฒกํฐ ํํ์ ์ฐจ์์ ๋ง์ถฐ์ค๋ค. ๋ํ, ์ด ๊ณผ์ ์์ ๋ ์ด์ 0๊ณผ 1๋ง ๊ฐ์ง ๊ฐ์ด ์๋๋ผ ์ค์๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด์ ์ฌ์ฉ์๊ฐ ๋ฐ์ง ํํ์ ์ฐจ์์ 128๋ก ์ค์ ํ๋ฉด, ๋ชจ๋ ๋จ์ด์ ๋ฒกํฐ ํํ์ ์ฐจ์์ 128๋ก ๋ฐ๋๋ฉด์ ๋ชจ๋ ๊ฐ์ด ์ค์๊ฐ ๋๋ค. --> [0.2, 0.4, 1.7, -3.9, 2.3,...] ์ด ๊ฒฝ์ฐ์ ๋ฒกํฐ์ ์ฐจ์์ด ์กฐ๋ฐํด์ก๋ค๊ณ ํด์ ๋ฐ์ง ๋ฒกํฐ๋ผ๊ณ ํ๋ค.
๋จ์ด๋ฅผ ๋ฐ์ง ๋ฒกํฐ์ ํํ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ ์๋ ์๋ฒ ๋ฉ(word embedding)์ด๋ผ๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ฐ์ง ๋ฒกํฐ๋ฅผ ์๋ ์๋ฒ ๋ฉ ๊ณผ์ ์ ํตํด ๋์จ ๊ฒฐ๊ณผ๋ผ๊ณ ํ์ฌ ์๋ฒ ๋ฉ ๋ฒกํฐ(embedding vector)๋ผ๊ณ ํ๋ค.
3-1. Word2Vec
์-ํซ ๋ฒกํฐ๋ ๋จ์ด ๋ฒกํฐ๋ค ๊ฐ์ ์ ์๋ฏธํ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ ์ ์๋ ๋จ์ ์ด ์๋๋ฐ, ๊ทธ๋์ ๋ฒกํฐ ๊ฐ์ ์ ์๋ฏธํ ์ ์ฌ๋๋ฅผ ๋ฐ์ํ ์ ์๋๋ก ๋จ์ด์ ์๋ฏธ๋ฅผ ์์นํํ ์ ์๋ ๋ฐฉ๋ฒ์ด ํ์ํ๋ฐ ๊ทธ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ด Word2Vec์ด๋ค.
Word2Vec์ ํ์ต ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค. ํฌ์ผ ํํ์ด ๊ณ ์ฐจ์์ ๊ฐ ์ฐจ์๋ฆฌ ๋ถ๋ฆฌ๋ ํํ ๋ฐฉ๋ฒ์ด๋ผ๋ฉด, ๋ถ์ฐ ํํ์ ์ ์ฐจ์์์ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ฌ๋ฌ ์ฐจ์์๋ค๊ฐ ๋ถ์ฐํ์ฌ ํํํ๋ค. ์ด๋ฌํ ํํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋จ์ด ๋ฒกํฐ ๊ฐ์ ์ ์๋ฏธํ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
Word2Vec์ ํ์ต ๋ฐฉ์์๋ CBOW์ Skip-Gram ๋ ๊ฐ์ง ๋ฐฉ์์ด ์๋ค. CBOW๋ ์ฃผ๋ณ์ ์๋ ๋จ์ด๋ค์ ์ ๋ ฅ์ผ๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ฐ๋๋ก, Skip-Gram์ ์ค๊ฐ์ ์๋ ๋จ์ด๋ค์ ์ ๋ ฅ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด ๋์ ๋ํด ์ดํด๋ณด๊ฒ ๋ค.
CBOW(Continuous Bag of Words)
์๋ฌธ: "THe fat cat sat on the mat"
์์ ๊ฐ์ ์๋ฌธ์ด ์๋ค๊ณ ํ ๋, ['The', 'fat', 'cat', 'on', 'the', 'mat']์ผ๋ก๋ถํฐ sat์ ์์ธกํ๋ ๊ฒ์ CBOW๊ฐ ํ๋ ์ผ์ด๋ค. ์ด๋ ์์ธกํด์ผ ํ๋ ๋จ์ด sat์ ์ค์ฌ ๋จ์ด(center word)๋ผ ํ๊ณ , ์์ธก์ ์ฌ์ฉ๋๋ ๋จ์ด๋ค์ ์ฃผ๋ณ ๋จ์ด(context word)๋ผ ํ๋ค. ์ค์ฌ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด์ ์, ๋ค๋ก ๋ช ๊ฐ์ ๋จ์ด๋ฅผ ๋ณผ์ง๋ฅผ ๊ฒฐ์ ํด์ผ ํ๋๋ฐ ์ด ๋ฒ์๋ฅผ ์๋์ฐ(window)๋ผ ํ๋ค. ์๋ฅผ ๋ค์ด ์๋์ฐ์ ํฌ๊ธฐ๊ฐ 1์ด๋ผ๊ณ ํ๋ฉด ์ค์ ๋จ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์๋ค์ ๊ฐ๊ฐ ํ๋์ ๋จ์ด๋ฅผ ๋ณธ๋ค๋ ๊ฒ์ด๋ค. ์๋์ฐ์ ํฌ๊ธฐ๊ฐ ์ ํด์ง๋ฉด ์๋์ฐ๋ฅผ ์์ผ๋ก ์์ง์ฌ์ ์ฃผ๋ณ ๋จ์ด์ ์ค์ฌ ๋จ์ด์ ์ ํ์ ๋ณ๊ฒฝํด ๊ฐ๋ฉฐ ํ์ต์ ์ํ ๋ฐ์ดํฐ ์ ์ ๋ง๋๋๋ฐ ์ด ๋ฐฉ๋ฒ์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ(sliding window)๋ผ๊ณ ํ๋ค.
์์ ๊ทธ๋ฆผ 1์ CBOW์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๊ฐ๋จํ ๋์ํํ ๊ฒ์ด๋ค. ์ ๋ ฅ์ธต์ ์ ๋ ฅ์ผ๋ก ์, ๋ค๋ก ์ฌ์ฉ์๊ฐ ์ ํ ์๋์ฐ ํฌ๊ธฐ ๋ฒ์ ์์ ์๋ ์ฃผ๋ณ ๋จ์ด๋ค์ ์-ํซ ๋ฒกํฐ๊ฐ ๋ค์ด๊ฐ๊ณ , ์ถ๋ ฅ์ธต์์ ์์ธกํ๊ณ ์ ํ๋ ์ค๊ฐ ๋จ์ด์ ์-ํซ ๋ฒกํฐ๊ฐ ๋ ์ด๋ธ๋ก์ ํ์ํ๋ค.
์์ ๊ทธ๋ฆผ 2๋ CBOW์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ข ๋ ํ๋ํ ๊ฒ์ด๋ค. ์์ ๊ทธ๋ฆผ์์ ์ฃผ๋ชฉํด์ผ ํ ์ ์ ๋ ๊ฐ์ง์ธ๋ฐ ์ฒซ ๋ฒ์งธ๋ ํฌ์ฌ์ธต์ ํฌ๊ธฐ๊ฐ M์ด๋ผ๋ ์ ์ด๋ค. CBOW์์ ํฌ์ฌ์ธต์ ํฌ๊ธฐ M์ ์๋ฒ ๋ฉํ๊ณ ๋ ๋ฒกํฐ์ ์ฐจ์์ด ๋๋ค. ๋ ๋ฒ์งธ๋ ์ ๋ ฅ์ธต๊ณผ ํฌ์ฌ์ธต ์ฌ์ด์ ๊ฐ์ค์น W๋ V x M ํ๋ ฌ์ด๋ฉฐ, ํฌ์ฌ์ธต์์ ์ถ๋ ฅ์ธต ์ฌ์ด์ ๊ฐ์ค์น W'์ M x V ํ๋ ฌ์ด๋ผ๋ ์ ์ด๋ค. ์ฌ๊ธฐ์ V๋ ๋จ์ด ์งํฉ์ ํฌ๊ธฐ๋ฅผ ์๋ฏธํ๋ค. ๋ฐ๋ผ์ CBOW๋ ์ฃผ๋ณ ๋จ์ด๋ก ์ค์ฌ ๋จ์ด๋ฅผ ๋ ์ ํํ ๋ง์ถ๊ธฐ ์ํด ๊ณ์ํด์ ์ด W์ W'์ ํ์ตํด ๋๊ฐ๋ ๊ตฌ์กฐ์ด๋ค. ๋ ์์ธํ ๋ด์ฉ์ ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
Skip-gram
CBOW์์๋ ์ฃผ๋ณ ๋จ์ด๋ฅผ ํตํด ์ค์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ค๋ฉด, Skip-gram์ ์ค์ฌ ๋จ์ด์์ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ๋ค. Skip-gram์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๋์ํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ค์ฌ ๋จ์ด์ ๋ํด์ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ๋ฏ๋ก ํฌ์ฌ์ธต์์ ๋ฒกํฐ๋ค์ ํ๊ท ์ ๊ตฌํ๋ ๊ณผ์ ์ ์๋ค. ์ฌ๋ฌ ๋ ผ๋ฌธ์์ ๋น๊ต๋ฅผ ์งํํ ๊ฒฐ๊ณผ, Skip-gram์ด CBOW๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ ์๋ ค์ ธ ์๋ค.
3-2. GloVe
GloVe(Global Vectors for Word Representation)๋ ์นด์ดํธ ๊ธฐ๋ฐ๊ณผ ์์ธก ๊ธฐ๋ฐ์ ๋ชจ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. ๊ธฐ์กด์ ์นด์ดํธ ๊ธฐ๋ฐ์ LSA(Latent Semantic Analysus)์ ์์ธก ๊ธฐ๋ฐ์ Word2Vec์ ๋จ์ ์ ์ง์ ํ๋ฉฐ ์ด๋ฅผ ๋ณด์ํ์๋ค.
๊ธฐ์กด์ LSA๋ DTM์ด๋ TF-iDF ํ๋ ฌ๊ณผ ๊ฐ์ด ๊ฐ ๋ฌธ์์์์ ๊ฐ ๋จ์ด์ ๋น๋์๋ฅผ ์นด์ดํธํ ํ๋ ฌ์ด๋ผ๋ ์ ์ฒด์ ์ธ ํต๊ณ ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ์ฐจ์์ ์ถ์ํด ์ ์ฌ๋ ์๋ฏธ๋ฅผ ๋์ด๋๋ค. ๋ฐ๋ฉด์, Word2Vec์ ์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ ๋ํ ์ค์ฐจ๋ฅผ ์์ค ํจ์๋ฅผ ํตํด ์ค์ฌ๋๊ฐ๋ฉฐ ํ์ตํ๋ ์์ธก ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ๋ก ์ด์๋ค. ๊ฐ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฅ,๋จ์ ์ ๊ฐ์ง๊ณ ์๋๋ฐ LSA๋ ์นด์ดํธ ๊ธฐ๋ฐ์ผ๋ก ์ฝํผ์ค์ ์ ์ฒด์ ์ธ ํต๊ณ์ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ๊ธฐ๋ ํ์ง๋ง, ๋จ์ด ์๋ฏธ์ ์ ์ถ ์์ ์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค. Word2Vec์ ์์ธก ๊ธฐ๋ฐ์ผ๋ก ๋จ์ด ๊ฐ ์ ์ถ ์์ ์๋ LSA๋ณด๋ค ๋ฐ์ด๋์ง๋ง, ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ ์๋์ฐ ํฌ๊ธฐ ๋ด์์๋ง ์ฃผ๋ณ ๋จ์ด๋ฅผ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์ฝํผ์ค์ ์ ์ฒด์ ์ธ ํต๊ณ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ง๋ ๋ชปํ๋ค. GloVe๋ ์ด๋ฌํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, LSA์ ๋ฉ์ปค๋์ฆ์ด์๋ ์นด์ดํธ ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ๊ณผ Word2Vec์ ๋ฉ์ปค๋์ฆ์ด์๋ ์์ธก ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ๋ก ๋ ๊ฐ์ง๋ฅผ ๋ชจ๋ ์ฌ์ฉํ์๋ค.
๋์ ๋ฑ์ฅ ํ๋ฅ (Co-occurrence Probability)
๋์ ๋ฑ์ฅ ํ๋ฅ P(k|i)๋ ๋์ ๋ฑ์ฅ ํ๋ ฌ๋ก๋ถํฐ ํน์ ๋จ์ด i์ ์ ์ฒด ๋ฑ์ฅ ํ์๋ฅผ ์นด์ดํธํ๊ณ , ํน์ ๋จ์ด i๊ฐ ๋ฑ์ฅํ์ ๋ ์ด๋ค ๋จ์ด k๊ฐ ๋ฑ์ฅํ ํ์๋ฅผ ์นด์ดํธํ์ฌ ๊ณ์ฐํ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด๋ค. ์ฌ๊ธฐ์ i๋ฅผ ์ค์ฌ ๋จ์ด, k๋ฅผ ์ฃผ๋ณ ๋จ์ด๋ผ๊ณ ํ ๋, ๋์ ๋ฑ์ฅ ํ๋ ฌ์์ ์ค์ ๋จ์ด i์ ํ์ ๋ชจ๋ ๊ฐ์ ๋ํ ๊ฐ์ ๋ถ๋ชจ๋ก ํ๊ณ iํ k์ด์ ๊ฐ์ ๋ถ์๋ก ํ ๊ฐ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ์ด์ ๋ํ ์์๋ ์ฌ๊ธฐ์์ ํ์ธํ ์ ์๋ค.
์์ค ํจ์(Loss function)
GloVe์ ์์ด๋์ด๋ฅผ ํ ์ค๋ก ์์ฝํ๋ฉด '์๋ฒ ๋ฉ ๋ ์ค์ฌ ๋จ์ด์ ์ฃผ๋ณ ๋จ์ด ๋ฒกํฐ์ ๋ด์ ์ด ์ ์ฒด ์ฝํผ์ค์์์ ๋์ ๋ฑ์ฅ ํ๋ฅ ์ด ๋๋๋ก ๋ง๋๋ ๊ฒ'์ด๋ผ๊ณ ํ ์ ์๋ค. ์ฆ, ์ด๋ฅผ ๋ง์กฑํ๋๋ก ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ๋ง๋๋ ๊ฒ์ด ๋ชฉํ์ด๋ค. GloVe์ ์์ค ํจ์๋ฅผ ์ ๋ํ๋ ๊ณผ์ ์ ๋๋ฌด ๊ธธ์ด์ ์ฌ๊ธฐ์์ ์ค๋ช ํ์ง๋ ์๊ณ ๊ถ๊ธํ๋ค๋ฉด ์ฌ๊ธฐ์์ ํ์ธํ๊ธธ ๋ฐ๋๋ค.
์ถ์ฒ: https://wikidocs.net/book/2155