The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ RNN์ผ๋ก ๊ตฌ์ฑ๋ RNN Encoder-Decoder๋ก ๋ถ๋ฆฌ๋ ์๋ก์ด ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ ์ํ์๋ค. ํ๋์ RNN์ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ representation์ ์ฌ๋ณผ์ ์ํ์ค๋ฅผ ์ธ์ฝ๋ํ์๊ณ , ๋ค๋ฅธ ํ๋๋ ๋ ๋ค๋ฅธ ์ฌ๋ณผ์ ์ํ์ค์ representation์ ๋์ฝ๋ํ์๋ค. ์ ์๋ ๋ชจ๋ธ์ ์ธ์ฝ๋์ ๋์ฝ๋๋ source sequence๊ฐ ์ฃผ์ด์ก์ ๋, target sequence์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ต๋ํํ๊ธฐ ์ํด ๊ณต๋์ผ๋ก ํ์ต๋๋ค. ํต๊ณ์ ๊ธฐ๊ณ ๋ฒ์ญ ์์คํ ์ ์ฑ๋ฅ์ ๊ธฐ์กด ๋ก๊ทธ ์ ํ ๋ชจ๋ธ์ ์ถ๊ฐ ๊ธฐ๋ฅ์ผ๋ก RNN Encoder-Decoder์์ ๊ณ์ฐ๋ phrase pair์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ์ฉํ์ฌ ๊ฐ์ ๋จ์ ๊ฒฝํ์ ์ผ๋ก ํ์ธํ ์ ์์๋ค. ์ ์ฑ์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์ ์๋ ๋ชจ๋ธ์ด ์ธ์ด ๊ตฌ๋ฌธ์ ์๋ฏธ๋ก ์ ๋ฐ ๊ตฌ๋ฌธ๋ก ์ ์ผ๋ก ์๋ฏธ ์๋ representation์ ํ์ตํจ์ ๋ณด์ฌ์คฌ๋ค.
(2023/01/27 ์ถ๊ฐ)
๋ค์ ๋ณด๋, ๋๋ฌด ์ง์ ๋ถํ๊ฒ ํฌ์คํธ๋ฅผ ์์ฑํ๋ค์ ใ ใ ,, GRU์ ๋ํ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋จํ๊ฒ ๋ณด๊ณ ์ถ์ผ์๋ค๋ฉด ์ฌ๊ธฐ์ GRU ๋ถ๋ถ์ ์ฐธ๊ณ ํด์ฃผ์๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค์~
๊ทธ๋ฆฌ๊ณ ์ข ๋ ๊ฐํธํ๊ณ ์์ธํ๊ฒ ํ์ธํ๊ณ ์ถ์ผ์๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!!
Table of Contents
1. Introduction
2. RNN Encoder-Decoder
2-1. Preliminary: Recurrent Neural Networks
2-2. RNN Encoder-Decoder
2-3. Hidden Unit that Adaptively Remembers and Forgets
3. Statistical Machine Translation
3-1. Scoring Phrase Pairs with RNN Encoder-Decoder
4. Results and Analysis
5. Conclusion
1. Introduction
DNN์ object recognition๊ณผ speech recognition ๊ฐ์ ๋ถ์ผ์์ ์์ฒญ๋ ์ฑ๊ณต์ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ, ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์์ ์ ๊ฒฝ๋ง์ด NLP task์ ๋ํด์๋ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ค๋ ๊ฒ์ ๋ฐํ๋๋ค. ์ฌ๊ธฐ์๋ ๋ค์์ ๊ฒ๋ค์ด ํฌํจ๋์ง๋ง, ์ด์ ๊ตญํ๋๋ ๊ฒ์ ์๋๋ค. ์๋ฅผ ๋ค์ด language modeling, paraphrase detection, word embedding ์ถ์ถ ๋ฑ์ด ์๋ค. statistical machine translation$($SMT$)$ ๋ถ์ผ์์, DNN์ ํฌ๋ง์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ ์์ํ์๋ค. Schwenk์ ์ฐ๊ตฌ๋ phrase ๊ธฐ๋ฐ์ SMT ์์คํ ์ ๊ตฌ์กฐ์์ feedforward ์ ๊ฒฝ๋ง์ด ์ด๋ป๊ฒ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋์๋์ง๋ฅผ ์์ฝํด์ ๋ณด์ฌ์คฌ๋ค.
SMT๋ฅผ ์ํด ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ ๋ถ์ผ์ ์ฐ๊ตฌ๋ฅผ ๋ฐ๋ผ์, ์ด ๋ ผ๋ฌธ์์๋ ์ ํต์ ์ธ phrase ๊ธฐ๋ฐ์ SMT ์์คํ ์ ๋ถ๋ถ ์ฒ๋ผ ์ฌ์ฉํ ์ ์๋ ์๋ก์ด ์ ๊ฒฝ๋ง architecture์ ์ง์คํ์๋ค. ์ ์๋ ์ ๊ฒฝ๋ง architecture๋ RNN ENcoder-Decoder๋ผ๊ณ ๋ถ๋ฆฌ๊ณ , ๋ ๊ฐ์ RNN์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋๋ฐ, ๊ฐ๊ฐ์ ์ธ์ฝ๋์ ๋์ฝ๋ ์์ผ๋ก ์๋๋๋ค. ์ธ์ฝ๋๋ ๊ฐ๋ณ ๊ธธ์ด์ source sequence๋ฅผ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ์ ๋งคํํ๊ณ , ๋์ฝ๋๋ ๋ฒกํฐ representation์ ๋ค์ ๊ฐ๋ณ ๊ธธ์ด์ target sequence๋ก ๋งคํํ๋ค. ๋ ๊ฐ์ network๋ source sequence๊ฐ ์ฃผ์ด์ง๋ฉด target sequence์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ต๋ํํ๊ธฐ ์ํด ๊ณต๋์ผ๋ก ํ์ต๋๋ค. ์ถ๊ฐ์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ๋ํ ๋ฉ๋ชจ๋ฆฌ ์ฉ๋๊ณผ ํ๋ จ ์ฉ์ด์ฑ์ ๋ชจ๋ ํฅ์์ํค๊ธฐ ์ํด ๋ค์ ์ ๊ตํ hidden unit์ ์ฌ์ฉํ ๊ฒ์ ์ ์ํ๋ค.
์๋ก์ด hidden unit๊ณผ ํจ๊ป ์๋ ์ ์๋ RNN Encoder-Decoder๋ ์คํ์ ์ผ๋ก ์์ด์์ ํ๋์ค์ด๋ก ๋ฒ์ญํ๋ task๋ก ํ๊ฐ๋์๋ค. ๋ชจ๋ธ์ ํ๋ จ์์ผ์ ์์ด ๊ตฌ์ ํด๋น ํ๋์ค์ด ๊ตฌ๋ก์ ๋ฒ์ญ ํ๋ฅ ์ ํ์ต์์ผฐ๋ค ๊ทธ ๋ค์์ ๋ชจ๋ธ์, ๊ฐ phrase ์ง์ phrase table์์ ์ ์๋ฅผ ๋งค๊น์ผ๋ก์จ ๊ธฐ์กด์ phrase ๊ธฐ๋ฐ์ SMT ์์คํ ์ ๋ถ๋ถ์ผ๋ก ์ฌ์ฉ๋์๋ค. ์คํ์ ํ๊ฐ๋ RNN Encoder-Decoder์ ํจ๊ป phrase ์ง์ ์ ์ ๋งค๊ธฐ๋ ๋ฐฉ๋ฒ์ด ๋ฒ์ญ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ ๋ฐํ๋๋ค.
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ๋ฒ์ญ ๋ชจ๋ธ์ phrase score์ ํ๋ จ๋ RNN Encoder-Decoder์ phrase score์ ๋น๊ตํ๋ฉด์ ๋ถ์ํ์๋ค. ๋ถ์์ RNN Encoder-Decoder๊ฐ phrase table์ ์ธ์ด ๊ท์น์ฑ์ ๋ ์ ์บก์ฒํ์ฌ ์ ์ฒด ๋ฒ์ญ ์ฑ๋ฅ์ ์์ ๊ฐ์ ์ ๊ฐ์ ์ ์ผ๋ก ์ค๋ช ํจ์ ๋ณด์ฌ์คฌ๋ค. ๋ชจ๋ธ์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ถ์์ RNN Encoder-Decoder๊ฐ phrase์ ๊ณ์๋๋ space representation์ ํ์ตํ๋ ๊ฒ์ด phrase์ ์๋ฏธ๋ก ์ , ๊ตฌ๋ฌธ๋ก ์ ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ ๋ณด์กดํด์ค๋ค๋ ๊ฒ์ ์๊ฒ ๋์๋ค.
2. RNN Encoder-Decoder
2-1. Preliminary: Recurrent Neural Networks
RNN์ ์ ๊ฒฝ๋ง์ผ๋ก ๊ฐ๋ณ ๊ธธ์ด์ ์ํ์ค $\textbf{x}=[x_{1},...,x_{T}]$ ์์์ ๊ตฌ๋๋๋ ์ถ๋ ฅ $\textbf{y}$์ hidden state $\textbf{h}$๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๊ฐ ํ์ ์คํ $t$์์ RNN์ hidden state $\textbf{h}_{\left< t\right>}$์ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฐ์ดํธ ๋๋ค.
์ฌ๊ธฐ์ $f$๋ ๋น์ ํ ํ์ฑํ ํจ์์ด๋ค. $f$๋ ๊ฐ๋จํ๊ฒ๋ element-wise logistic sigmoid ํจ์๊ฐ ๋ ์๋ ์๊ณ , ๋ณต์กํ๊ฒ๋ LSTM unit์ด ๋ ์๋ ์๋ค.
RNN์ ์ํ์ค์์ ๋ค์ ์ฌ๋ณผ์ ์์ธกํ๋๋ก ํ๋ จ๋จ์ผ๋ก์จ ์ํ์ค์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐฐ์ธ ์ ์๊ฒ ๋๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ์๋, ๊ฐ ํ์ ์คํ $t$์ ์ถ๋ ฅ์ ์กฐ๊ฑด๋ถ ๋ถํฌ $p(x_{t}|x_{t-1},...,x_{1})$์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ ๊ฐ๋ฅํ ๊ธฐํธ $j=1,...,K$์ ๋ํด softmax ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋คํญ ๋ถํฌ(1-of-K ์ฝ๋ฉ)๋ฅผ ์ถ๋ ฅํ ์ ์๋ค. ์ฌ๊ธฐ์ $\textbf{w}_{j}$๋ ๊ฐ์ค์น ํ๋ ฌ $\textbf{W}$์ ํ์ด๋ค.
์ด๋ฌํ ํ๋ฅ ๋ค์ ๋ฌถ์์ผ๋ก์จ ๋ค์์ ์์ 3์ ์ฌ์ฉํ์ฌ ์ํ์ค $\textbf{x}$๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
์ด ํ์ต๋ ๋ถํฌ์์ ๊ฐ ํ์ ์คํ ์์ ๊ธฐํธ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ํ๋งํ์ฌ ์ ์ํ์ค๋ฅผ ์ํ๋งํ๋ ๊ฒ์ ๊ฐ๋จํฉ๋๋ค.
2-2. RNN Encoder-Decoder
์ด ๋ ผ๋ฌธ์์๋, ๊ฐ๋ณ ๊ธธ์ ์ํ์ค๋ฅผ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ representation์ผ๋ก ์ธ์ฝ๋ํ๊ณ , ์ฃผ์ด์ง ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ representation์ ๋ค์ ๊ฐ๋ณ ๊ธธ์ด์ ์ํ์ค๋ก ๋์ฝ๋ํ๊ธฐ ์ํด ํ์ตํ๋ ์๋ก์ด ์ ๊ฒฝ๋ง architecture์ ์ ์ํ์๋ค. ํ๋ฅ ๋ก ์ ๊ด์ ์์, ์ด ์๋ก์ด ๋ชจ๋ธ์ ๋ ๋ค๋ฅธ ๊ฐ๋ณ ๊ธธ์ด ์ํ์ค๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ ๊ฐ๋ณ ๊ธธ์ด ์ํ์ค์ ๋ํ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ํ์ตํ๋ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค. ์๋ฅผ ๋ค์ด $p(y_{1},...,y_{T^{'}}|x_{1},...,x_{T})$์์ ์ ๋ ฅ ์ํ์ค ๊ธธ์ด $T$์ ์ถ๋ ฅ ์ํ์ค ๊ธธ์ด $T^{'}$์ ๊ธธ์ด๊ฐ ๋ค๋ฅด๋ค๋ ๊ฒ์ ์์๋ฌ์ผ ํ๋ค.
์ธ์ฝ๋๋ RNN์ผ๋ก ์ ๋ ฅ ์ํ์ค $\textbf{x}$์ ๊ฐ ์ฌ๋ณผ์ ์ฐ์์ ์ผ๋ก ์ฝ๋๋ค. ๊ฐ ์ฌ๋ณผ์ ์ฝ์์ ๋ฐ๋ผ, RNN์ hidden state๋ ์์ ์์ 1์ ๋ฐ๋ผ์ ๋ณํํ๋ค. ์ํ์ค์ ๋ง์ง๋ง์ ์ฝ๊ณ ๋ ํ์, RNN์ hidden state๋ ์ ์ฒด ์ ๋ ฅ ์ํ์ค์ ์์ฝ $\textbf{c}$๊ฐ ๋๋ค.
์ ์๋ ๋ชจ๋ธ์ ๋ํ ๋๋ ๋ ๋ค๋ฅธ RNN์ผ๋ก, hidden state $\textbf{h}_{\left< t\right>}$๊ฐ ์ฃผ์ด์ง๋ฉด ๋ค์ ์ฌ๋ณผ $y_{t}$๋ฅผ ์์ธกํจ์ผ๋ก์จ ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๊ธฐ ์ํด ํ์ต๋๋ค. ํ์ง๋ง, ์์ 2-1์์ ์ธ๊ธํ RNN๊ณผ ๋ค๋ฅด๊ฒ, $y_{t}$์ $\textbf{h}_{\left< t\right>}$ ๋ชจ๋ ๋ํ $y_{t-1}$์ ์ ๋ ฅ ์ํ์ค์ ์์ฝ $\textbf{c}$์ condition๋์ด ์๋ค. ๊ทธ๋์, ํ์ ์คํ $t$์์ ๋์ฝ๋์ hidden state๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
๊ทธ๋ฆฌ๊ณ ๋น์ทํ๊ฒ, ํ์ฑํ ํจ์ $f$์ $g$๊ฐ ์ฃผ์ด์ก์ ๋, ๋ค์ ์ฌ๋ณผ์ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
๋ค์์ ๊ทธ๋ฆผ 1์ ๋ณด๋ฉด ์ ์๋ ๋ชจ๋ธ์ architecture์ ๋ํ ๋ฌ์ฌ๋ฅผ ํ์ธํ ์ ์๋ค.
์ ์๋ RNN Encoder-Decoder์ ๋ ์์๋ ์กฐ๊ฑด๋ถ log-likelihood๋ฅผ ์ต๋ํํ๊ธฐ ์ํด ๊ณต๋์ผ๋ก ํ์ต๋๋ค.
์ฌ๊ธฐ์ $\Theta$๋ ๋ชจ๋ธ parameter ์ธํธ์ด๊ณ ๊ฐ $(\textbf{x}_{n},\textbf{y}_{n})$์ ํ๋ จ ์ธํธ์ $($์ ๋ ฅ ์ํ์ค, ์ถ๋ ฅ ์ํ์ค$)$ ์ง์ด๋ค. ๋ ผ๋ฌธ์์๋, ์ ๋ ฅ์์ ์์ํ์ฌ ๋์ฝ๋์ ์ถ๋ ฅ์ด ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฏ๋ก ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ parameter์ ์ถ์ ํ ์ ์์๋ค.
RNN Encoder-Decoder๊ฐ ํ ๋ฒ ํ์ต๋๋ฉด, ๋ชจ๋ธ์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, ์ ๋ ฅ ์ํ์ค๊ฐ ์ฃผ์ด์ง๋ฉด target ์ํ์ค๋ฅผ ์์ฑํ ์ ์๋ค. ๋ ๋ฒ์งธ๋ก, ์ ์ ์ฃผ์ด์ง ์ง๊ณผ ์ถ๋ต ์ํ์ค์ ์ ์๋ฅผ ๋งค๊ธฐ๋ ๋ฐฉ์์ผ๋ก๋ ์ฌ์ฉ๋ ์ ์๋ค. ์ฌ๊ธฐ์ ์ ์๋ ๊ฐ๋จํ๊ฒ ์์ 3๊ณผ 4๋ก๋ถํฐ ์ป๋ ํ๋ฅ $p_{\Theta}(\textbf{y}|\textbf{x})$์ด๋ค.
2-3. Hidden Unit that Adaptively Remembers and Forgets
์๋ก์ด ๋ชจ๋ธ architecture์ ๋ํ์ฌ, ๋ ผ๋ฌธ์์๋ LSTM์ผ๋ก๋ถํฐ ์ป์ด์์ง๋ง, ํจ์ฌ ๋ ๊ฐ๋จํ ์๋ก์ด ์ ํ์ hidden unit์ ์ ์ํ์๋ค. ๊ทธ๋ฆผ 2๋ ์ ์๋ hidden unit์ ๋ณด์ฌ์ค๋ค.
$j$๋ฒ์งธ hidden unit์ activation์ด ์ด๋ป๊ฒ ๊ณ์ฐ๋๋์ง ์ค๋ช ํ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, reset ๊ฒ์ดํธ $r_{j}$๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
์ฌ๊ธฐ์ $\sigma$๋ logistic sigmoid ํจ์์ด๊ณ , $[.]_{j}$๋ ๋ฒกํฐ์ $j$๋ฒ์งธ ์์๋ฅผ ๋ํ๋ธ๋ค. $\textbf{x}$์ $\textbf{h}_{t-1}$์ ๊ฐ๊ฐ ์ ๋ ฅ๊ณผ ์ด์ hidden state์ด๋ค. $\textbf{W}_{r}$๊ณผ $\textbf{U}_{r}$์ ํ์ต๋ ๊ฐ์ค์น ํ๋ ฌ์ด๋ค.
์ด์ ๋น์ทํ๊ฒ, update ๊ฒ์ดํธ $z_{j}$๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
์ ์๋ unit $h_{j}$์ ์ค์ ํ์ฑํ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
์ฌ๊ธฐ์ ๋ค์ ๊ฐ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ด ๊ณต์์์, reset gate์ ๊ฐ์ด 0์ ๊ฐ๊น์์ง๋ฉด, hidden state๋ ์ด์ hidden state๋ฅผ ๋ฌด์ํ๋๋ก ๋ ธ๋ ฅํ๊ณ , ์ค์ง ํ์ฌ ์ ๋ ฅ๋ง ๋ฆฌ์ ํ๋ค. ์ด๊ฒ์ hidden state๊ฐ ๋ฏธ๋์๋ ๊ด๋ จ ์์ ์ด๋ ํ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก dropํ๊ฒ ํด์ค๋ค.
์ด์๋ ๋ฐ๋๋ก, hidden state์ ์ ๋ณด๋ฅผ ์ด๋ ์ ๋ ํ์ฌ hidden state๋ก ์ฌ๋ฆด ์ง ๊ฒฐ์ ํ๋ค. ์ด๊ฒ์ LSTM network์์์ ๋ฉ๋ชจ๋ฆฌ ์ ๊ณผ ๋น์ทํ๊ฒ ์๋ํ๊ณ , RNN์ด ๋์ฑ ๊ธด ์ ๋ณด๋ฅผ ๊ธฐ์ตํ ์ ์๋๋ก ๋์์ค๋ค. ๊ฒ๋ค๊ฐ, ์ด๊ฒ์ leaky-integration unit์ ์ ์ํ ๋ณํ์ผ๋ก ๊ฐ์ฃผ๋ ์ ์๋ค.
๊ฐ hidden unit์ ๋ถ๋ฆฌ๋ reset๊ณผ update ๊ฒ์ดํธ๋ฅผ ๊ฐ์ง๋๋ฐ, ๊ฐ hidden unit์ ๋ค๋ฅธ time scale์์์ ์ข ์์ฑ์ ์บก์ฒํ๊ธฐ ์ํด ํ์ต๋ ๊ฒ์ด๋ค. short-term ์ข ์์ฑ์ ์บก์ฒํ๊ธฐ ์ํด ํ์ต๋๋ unit๋ค์ reset gate๋ฅผ ๊ฐ์ง ๊ฒฝํฅ์ด ์๊ณ , long-term ์ข ์์ฑ์ ์บก์ฒํ๊ธฐ ์ํด ํ์ต๋๋ unit๋ค์ update date๋ฅผ ๊ฐ์ง ๊ฒฝํฅ์ด ์๋ค.
๋ ผ๋ฌธ์ ์คํ์ ๋ฐ๋ฅด๋ฉด, ์ด unit์ gating unit๊ณผ ํจ๊ป ์ฐ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ๊ฒ์ ์์๋๋ค.
3. Statistical Machine Translation
๋ณดํต ์ฌ์ฉ๋๋ statistical machine translation$($SMT$)$์ ๋ชฉ์ ์ ๋ค์์ ์ต๋ํํ๋ source sentence $\textbf{e}$๊ฐ ์ฃผ์ด์ง ๋ฒ์ญ $\textbf{f}$์ ์ฐพ๋ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์ ์ฐ๋ณ์ ์ฒซ ๋ฒ์งธ ๊ฐ์ translation model์ด๊ณ , ๋ ๋ฒ์งธ ๊ฐ์ language model์ด๋ค. ๊ทธ์น๋ง, ์ค์ ๋ก๋ SMT๋ ์ถ๊ฐ์ ์ธ ํน์ง๋ค๊ณผ ๊ทธ์ ์์ํ๋ ๊ฐ์ค์น์ ํจ๊ป log ์ ํ ๋ชจ๋ธ $logp(\textbf{f}|\textbf{e})$์ ๋ชจ๋ธ๋งํ๋ค.
์ฌ๊ธฐ์ $f_{n}$๊ณผ $w_{n}$์ ๊ฐ๊ฐ $n$๋ฒ์งธ feature์ weight์ด๋ค. $Z(\textbf{e})$๋ ๊ฐ์ค์น์ ์์กดํ์ง ์๋ ์ ๊ทํ ์ ์์ด๋ค. ๊ฐ์ค์น๋ development set์์ BLEU score๋ฅผ ์ต๋ํํ๋๋ก ์ต์ ํ๋์ด ์๋ค.
phrase ๊ธฐ๋ฐ์ SMT ๊ตฌ์กฐ๋ ์ด์ ์ ์ฐ๊ตฌ๋ค์์ ์๊ฐ๋์๋ค. ์ฌ๊ธฐ์ translation model $logp(\textbf{e}|\textbf{f})$๋ source sentence์ target sentence์์์ matching phrase์ ๋ฒ์ญ ํ๋ฅ ์ด๋ค. ์ด๋ฌํ ํ๋ฅ ์ ๋ค์ ํ ๋ฒ log ์ ํ ๋ชจ๋ธ์ ์ถ๊ฐ ๊ธฐ๋ฅ์ผ๋ก ๊ฐ์ฃผ๋๋ฉฐ ๊ทธ์ ๋ฐ๋ผ ๊ฐ์ค์น๊ฐ ๋ถ์ฌ๋์ด BLEU ์ ์๋ฅผ ์ต๋ํํ๋ค.
3-1. Scoring Phrase Pairs with RNN Encoder-Decoder
๋ ผ๋ฌธ์์๋ RNN Encoder-Decoder๊ฐ phrase ์ง์ ํ ์ด๋ธ์์ ํ๋ จํ๊ณ , ์ด score๋ฅผ SMT decoder์ tuningํ ๋ log ์ ํ ๋ชจ๋ธ์์ ์ถ๊ฐ์ ์ธ feature๋ก ์ฌ์ฉํ๊ธธ ์ ์ํ์๋ค.
RNN Encoder-Decoder์ ํ๋ จํ ๋, ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ corpora์์์ ๊ฐ๊ฐ์ phrase ์ง์ ๋น๋๋ฅผ ๋ถ์ํ์๋ค. ์ด๋ฌํ ์กฐ์น๋ $($1$)$ ์ ๊ทํ ๋น๋์ ๋ฐ๋ผ์ ๊ฑฐ๋ํ phrase table์ผ๋ก๋ถํฐ ๋๋คํ๊ฒ phrase ์ง์ ์ ํํ๋ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ณ , $($2$)$ RNN Encoder-Decoder๊ฐ ์ถํ ์์ ๋ฐ๋ผ phrase๋ฅผ rankํ๊ธฐ ์ํด ๊ฐํธํ๊ฒ ํ์ต๋์ง ์๊ฒ ํ๋ค. ์ด๋ฌํ ์ ํ์ ๋ํ ํ๋์ ๊ทผ๋ณธ์ ์ธ ์ด์ ๋ phrase table์ ์กด์ฌํ๋ ๋ฒ์ญ ํ๋ฅ ์ ์ด๋ฏธ ๊ธฐ์กด์ corpus์์ phrase ์ง์ ๋น๋๋ฅผ ๋ํ๋ด๊ธฐ ๋๋ฌธ์ด๋ค. RNN Encoder-Decoder์ ๊ณ ์ ๋ ์ฉ๋๊ณผ ํจ๊ป, ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ์ฉ๋์ด linguistic ๊ท์น์ฑ์ ํ์ตํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค๋ ๊ฒ์ ๋ณด์ฅ๋ ค๊ณ ํ๋ค. ์๋ฅผ ๋ค์ด, ๊ทธ๋ด ๋ฏํ ๋ฒ์ญ๊ณผ ๊ทธ๋ ์ง ์์ ๋ฒ์ญ์ ๊ตฌ๋ถํ๊ฑฐ๋, ๊ทธ๋ด ๋ฏํ ๋ฒ์ญ์ ๋ง์ด ํ์ตํ๋ ๊ฒ๊ณผ ๊ฐ์ด ๋ง์ด๋ค.
RNN Encoder-Decoder๊ฐ ํ ๋ฒ ํ์ต๋๋ฉด, ์กด์ฌํ๋ phrase table์ ๊ฐ phrase ์ง์ ๋ํ ์๋ก์ด ์ ์๋ฅผ ์ถ๊ฐํ์๋ค. ์ด๊ฒ์ ๊ณ์ฐ์์ ์ต์ํ์ ์ถ๊ฐ์ ์ธ overhead์ ํจ๊ป ์กด์ฌํ๋ tuning ์๊ณ ๋ฆฌ์ฆ ์์ ์๋ก์ด ์ ์๊ฐ ๋ค์ด๊ฐ ์ ์๋๋ก ํ๋ฝํด์ฃผ์๋ค.
์ด์ ์ ์ฐ๊ตฌ๋ค์ ํตํด ์กด์ฌํ๋ phrase table์ ์ ์๋ RNN Encoder-Decoder๋ก ์๋ฒฝํ๊ฒ ๋์ฒดํ ์ ์๋ค๋ ๊ฒ์ด ๋ฐํ์ก์ง๋ง, ๋๋ฌด ๋น์ผ ๋น์ฉ ๋๋ฌธ์, ์ด ๋ ผ๋ฌธ์์๋ phrase table์์์ phrase ์ง์ rescoring ํ๋ ๋ฐ์๋ง ์ง์คํ์๋ค.
4. Results and Analysis
Quantative Analysis
๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ์กฐํฉ๋ค์ ์๋ํด๋ดค๋ค.
- Baselin configuration
- Baseline + RNN
- Baseline + CSLM + RNN
- Baseline + CSLM + RNN + Word penalty
์ด์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 1์ ๋ํ๋ ์๋ค.
๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, ์ต๊ณ ์ ์ฑ๋ฅ์ CSLM๊ณผ RNN Encoder-Decoder๋ก๋ถํฐ ์ป์ด์ง๋ phrase score์ ๊ฐ์ด ์ฌ์ฉํ์ ๋, ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Qualitative Analysis
์ฑ๋ฅ ํฅ์์ด ์ด๋ค ์ ์ผ๋ก๋ถํฐ ์๋์ง ์ดํดํ๊ธฐ ์ํด์, ๋ ผ๋ฌธ์์๋ ๋ฒ์ญ ๋ชจ๋ธ์ ํด๋น $p(\textbf{f}|\textbf{e})$์ ๋ํด RNN Encoder-Decoder์์ ๊ณ์ฐํ phrase ์ง ์ ์๋ฅผ ๋ถ์ํ๋ค. ์กด์ฌํ๋ ๋ฒ์ญ ๋ชจ๋ธ์ ๋จ์ง corpus์์์ phrase ์ง์ statistics์ ์์กดํ๊ธฐ ๋๋ฌธ์, ๋ ผ๋ฌธ์์๋ ๋น๋ฒํ ๋ฌธ๊ตฌ์ ๋ํด์๋ ์ ์๊ฐ ๋ ์ ์ถ์ ๋์ง๋ง ๋๋ฌธ ๋ฌธ๊ตฌ์ ๋ํด์๋ ์๋ชป ํ๊ฐ๋ ๊ฒ์ผ๋ก ์์ํ์๋ค. ๋ํ, 3-1์์ ์ธ๊ธํ๋ ๊ฒ์ฒ๋ผ linguistic ๊ท์น์ฑ์ ๊ธฐ๋ฐํ๋ phrase ์ง ๋ณด๋ค๋ corpus์์ ์ด๋ค์ ์ถํ์ statistics์ ๊ธฐ๋ฐํ๋ phrase ์ง์ scoreํ๊ธฐ ์ํด ์ด๋ ํ ๋น๋ ์ ๋ณด๊ฐ ์์ด ํ๋ จ๋ RNN Encoder-Decoder์ ์ถ๊ฐ์ ์ผ๋ก ์์ธกํ์๋ค.
๋ ผ๋ฌธ์์๋ source ๋ฌธ๊ตฌ๊ฐ ๊ธด ์$($๊ฐ source phrase์ 3๊ฐ ์ด์์ ๋จ์ด$)$๊ณผ ๋น๋๊ฐ ์ฆ์ ์์ ์ด์ ์ ๋ง์ท๋ค. ๊ฐ source phrase์ ๋ํด, ๋ ผ๋ฌธ์์๋ ๋ฒ์ญ ํ๋ฅ $p(\textbf{f}|\textbf{e})$ ๋๋ RNN Encoder-Decoder๊ฐ ๋์ ์ ์๋ฅผ ๋ฐ์ target phrase์ ๋ํด ์ดํด๋ณด์๋ค. ์ด์ ๋น์ทํ๊ฒ, ๋ ผ๋ฌธ์์๋ corpus์์ source phrase๊ฐ ๊ธธ์ง๋ง ํฌ๊ทํ ์ง๋ค์๊ฒ๋ ๋๊ฐ์ ๊ณผ์ ์ ์ํํ์๋ค.
ํ 2๋ ๋ฒ์ญ ๋ชจ๋ธ ๋๋ RNN Encoder-Decoder๊ฐ ์ ํธํ๋ source phrase ๋น ์์ 3๊ฐ์ target phrase๋ฅผ ๋์ดํ๋ค. source phrase๋ 4๊ฐ์์ 5๊ฐ ์ด์์ ๋จ์ด๋ฅผ ๊ฐ์ง๋๋ก ๊ธธ๊ฒ, ๋๋คํ ๊ณผ์ ์ ํตํ์ฌ ์ ํ๋์๋ค.
๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์, RNN Encoder-Decoder๋ก๋ถํฐ target phrase์ ์ ํ์ ์ค์ ๋๋ ๋ฌธ์ ๊ทธ๋๋ก์ ๋ฒ์ญ์ ๋์ฑ ๊ฐ๊น๋ค.
ํฅ๋ฏธ๋กญ๊ฒ๋, ๋ง์ phrase ์ง๋ค์ ๋ฒ์ญ ๋ชจ๋ธ๊ณผ RNN Encoder-Decoder๋ก๋ถํฐ ๋น์ทํ๊ฒ score๋์๋ค. ํ์ง๋ง, ์ฌ๊ธฐ์๋ ๋ค๋ฅธ ๋ง์ phrase ์ง์ด ์์๋ค. ์ด phrase ์ง๋ค์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅด๊ฒ score๋์๋ค. ์ด๋ RNN Encoder-Decoder์ ์ผ๋ จ์ ๊ณ ์ ํ ๊ตฌ๋ฌธ ์์ ๋ํด ๊ต์กํ๋ ์ ์๋ ์ ๊ทผ ๋ฐฉ์์์ ๋ฐ์ํ ์ ์์ผ๋ฉฐ, ์์ ์ค๋ช ํ ๊ฒ์ฒ๋ผ RNN Encoder-Decoder๊ฐ corpus์์ phrase ์ง์ ๋น๋๋ฅผ ๋จ์ํ ํ์ตํ์ง ๋ชปํ๊ฒ ํ๋ค.
5. Conclusion
์ด ๋ ผ๋ฌธ์์๋, RNN Encoder-Decoder๋ผ๊ณ ๋ถ๋ฅด๋ ์๋ก์ด ์ ๊ฒฝ๋ง architecture์ ์๊ฐํ์๋ค. ์ด๊ฒ์ ์์ ๊ธธ์ด์ ์ํ์ค์์ ๋ค๋ฅธ ์ํ์ค๋ก์ ๋งคํ์ ํ์ตํ ์ ์์ผ๋ฉฐ, ์์ ๊ธธ์ด์ ๋ค๋ฅธ ์งํฉ์์๋ ๊ฐ๋ฅํ๋ค. ์ ์๋ RNN Encoder-Decoder๋ ์ํ์ค์ ์ง์ ์ ์ ๋งค๊ธฐ๊ฑฐ๋, source sequence๊ฐ ์ฃผ์ด์ง๋ฉด, target sequence๋ฅผ ์์ฑํ ์ ์๋ค. ์๋ก์ด architecture์ ํจ๊ป, ๋ ผ๋ฌธ์์๋ ์ํ์ค๋ฅผ ์ฝ๊ฑฐ๋ ์์ฑํ ๋, ์ด๋ ์ ๋์ hidden unit์ ๊ธฐ์ตํ๊ฑฐ๋ ์์ด๋ฒ๋ฆด์ง ๊ฒฐ์ ํ๋ reset gate์ update gate๋ฅผ ํฌํจํ๋ ์๋ก์ด hidden unit์ ์ ์ํ์๋ค.
๋ ผ๋ฌธ์์๋ statistical machine translation๊ณผ ํจ๊ป ์ ์๋ ๋ชจ๋ธ์ ํ๊ฐํ์๋ค. ์ฌ๊ธฐ์ RNN Encoder-Decoder์ ์ฌ์ฉํ์ฌ phrase table์ ๊ฐ phrase ์ง์ scoreํ์๋ค. ์๋ก์ด ๋ชจ๋ธ์ phrase ์ง์์ linguistic ๊ท์น์ฑ์ ์ ์บก์ฒํ ์ ์์๊ณ , ๋ํ RNN Encoder-Decoder๋ ์ ํ์ฑ๋ target phrase๋ฅผ ์ ์ํ์๋ค.
RNN Encoder-Decoder๋ก๋ถํฐ ์ป์ ์ ์๋ BLEU score ๋ฉด์์ ์ ๋ฐ์ ์ธ ๋ฒ์ญ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ๋ํ, RNN Encoder-Decoder์ contribution๊ฐ SMT ์์คํ ์์ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ค์ ์ง๊ตํ๋ฏ๋ก ์๋ฅผ ๋ค์ด RNN Encoder-Decoder ๋ฐ ์ ๊ฒฝ๋ง ์ธ์ด ๋ชจ๋ธ ํจ๊ป ์ฌ์ฉํ๋ ์ธก๋ฉด์์ ๋ง์ด๋ค.
๋ ผ๋ฌธ์์ ํ๋ จ๋ ๋ชจ๋ธ์ qualitative analysis๋ ์ฌ์ค ๋ค์ค ๋ ๋ฒจ์์ linguistic ๊ท์น์ฑ์ ์บก์ฒํ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค. ์๋ฅผ ๋ค์ด, word level ๋ฟ๋ง ์๋๋ผ phrase level์์๋ ๋ง์ด๋ค. ์ด๊ฒ์ ์ ์๋ RNN Encoder-Decoder๋ก๋ถํฐ ํํ์ ๋ฐ์ ์ ์๋ ๋ ๋ง์ ์์ฐ์ด ๊ด๋ จ ์ ํ๋ฆฌ์ผ์ด์ ์ด ์์ ์ ์์์ ์์ฌํ๋ค.
์ ์๋ architecture๋ ๊ฐ์ ์ ๊ณผ ๋ถ์์ ๋ํด ์ถ๊ฐ์ ์ธ ๊ฑฐ๋ํ ์ ์ฌ๋ ฅ์ด ์๋ค. ๋ ผ๋ฌธ์์ ์งํ๋์ง ์๋ ๋ฐฉ๋ฒ ์ค์ ํ๋๋ phrase table์ RNN Encoder-Decoder๊ฐ ์ ์ํ๋ target phrase๋ก ๋ชจ๋ ๋ฐ๊ฟ๋ฒ๋ฆฌ๋ ๊ฒ์ด๋ค. ๋ํ ์ ์๋ ๋ชจ๋ธ์ด ๋ฌธ์ด์๋ง ๊ตญํ๋์ง ์๋๋ค๋ ์ ์ ์ฃผ๋ชฉํ์ฌ ์ ์๋ ์ํคํ ์ฒ๋ฅผ ์์ฑ ์ ์ฌ์ ๊ฐ์ ๋ค๋ฅธ ์์ฉ ํ๋ก๊ทธ๋จ์ ์ ์ฉํ๋ ๊ฒ์ด ์ค์ํ ํฅํ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ด๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/1406.1078