The overview of this paper
RNN ์ฆ, recurrent neural network๋ ์ค๋ ์๊ฐ ๋์ ์ฌ์ฉ๋์ด์จ ์ ๊ฒฝ๋ง์ด๋ค. ํ์ง๋ง, ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ฒ๋ฆฌํด์ผ ํ๋ ๋ฐ์ดํฐ์ ์์ด ๋ง์์ง๊ณผ task์ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ์ RNN์ผ๋ก๋ถํฐ ์ฅ๊ธฐ์์กด์ฑ์ ๋ฌธ์ ๊ฐ ์กด์ฌํจ์ ์๊ฒ ๋์๋ค. $($์ฅ๊ธฐ์์กด์ฑ์ ๋ํด ์ ๋ชจ๋ฅด์ ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!!$)$ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด gating unit์ ๊ฐ์ง๊ณ ์๋ ์๋ก์ด RNN ๋ชจ๋ธ๋ค์ธ LSTM๊ณผ GRU ๋ฑ์ด ๋ฑ์ฅํ๊ฒ ๋์๋ค. ์ด ๋์ ์๋นํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๋ ์ค ์ด๋ค ๊ฒ์ด ๋ ์ฐ์ํ ๋ชจ๋ธ์ธ์ง์ ๋ํด์๋ ์๊ฒฌ์ด ๋ถ๋ถํ๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ ผ๋์ ์ ์ฌ์ฐ๊ณ ์ ์ข ๋ ์ธ๋ฐํ๊ฒ ์ด ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํด๋ณด๊ณ ์ ํ์๋ค.
Table of Contents
1. Introduction
2. Background: RNN
3. Gated RNN
3-1. LSTM Unit
3-2. GRU
3-3. Discussion
4. Results and Analysis
1. Introduction
๋ ผ๋ฌธ์ด ์์ฑ๋์์ ๋น์์ ๋ฅ๋ฌ๋ task๋ค์์ ์ข์ ์ฑ๋ฅ์ ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ ์ดํด๋ณด๋ฉด ๋๋ถ๋ถ์ด RNN์ผ๋ก๋ถํฐ ํ์๋ ๋ชจ๋ธ๋ค์ด์๋ค. ๊ทธ ์ค์์๋ ์ด ๋ ผ๋ฌธ์์๋ LSTM๊ณผ GRU์ ๋ํด์ ๊น์ ๊ด์ฌ์ ๊ฐ์ก๋ค. GRU๋ LSTM์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ ๋ถ์ผ์ธ ์ฅ๊ธฐ์์กด์ฑ์ ๊ฐ์ง๊ณ ์๋ sequence ๊ธฐ๋ฐ์ task์์ ์ ์๋ํ๋๋ก ์ค๊ณ๋์์ง๋ง, ์ต๊ทผ์ ๊ณต๊ฐ๋ ๋ชจ๋ธ๋ก ์์ง machine translation ๋ถ์ผ์์ ์ ๋ ๋ฐ์ ์ฌ์ฉ๋์ง ์์์๋ค.
๊ทธ๋์ ์ด๋ค์ ์ฑ๋ฅ์ ์ ๋๋ก ๋น๊ตํด๋ณด๊ณ ์, LSTM, GRU, tanh$($์ ํต์ ์ธ RNN unit$)$ ์ด๋ ๊ฒ ์ธ ๊ฐ์ ๋ชจ๋ธ์ polyphonic music dataset์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค.
์คํ์ ๊ฒฐ๊ณผ๋ถํฐ ์ด~์ง ์คํฌ๋ฅผ ํ์๋ฉด! gating unit ์ฆ, LSTM๊ณผ GRU๊ฐ tanh ๋ชจ๋ธ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ์ ํ๋ parameter์ ์์์๋ GRU๊ฐ LSTM์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค๊ณ ํ๋ค.
2. Background: RNN
RNN์ ๋ค์ํ ๊ธธ์ด์ sequence ์ ๋ ฅ์ ๋ค๋ฃฐ ์ ์๋ ๊ธฐ์กด์ feedforward neural network์ ์ฐ์ฅ์ ์ธ ์ ์ด๋ค. RNN์ ๋ค์ํ ๊ธธ์ด์ sequence ์ ๋ ฅ์ ์ด์ ์ activation์ ์์กดํ๋ ๊ฐ ์์ ์ activation์ ๊ฐ์ง๋ recurrent hidden state๋ฅผ ์ฌ์ฉํ์ฌ ๋ค๋ฃฌ๋ค.
์ด๋ฅผ ์ข ๋ ๊ณต์์ ์ผ๋ก ํํํ๋ฉด, sequence $x = (x_1, x_2, ..., x_r)$์ด ์ฃผ์ด์ง๋ฉด, RNN์ recurrent hidden state $h_t$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฐ์ดํธ ํ๋ค.
$\textbf{h}_t=\left\{\begin{matrix}
0, t=0 \\\phi (\textbf{h}_{t-1}, x_t), otherwise
\end{matrix}\right.$
์ฌ๊ธฐ์ $\phi$๋ ๋น์ ํ ํจ์๋ก ์๋ฅผ ๋ค์ด affine ๋ณํ์ด ์๋ logistic sigmoid์ ๊ฒฐํฉ์ธ ์ ์ด๋ค. ์ด๋ฅผ ํตํด, RNN์ ๋ ๋ค์ ๋ค์ํ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋ ์ถ๋ ฅ๊ฐ $\textbf{y}=(y_1, y_2,...,y_r)$์ด ๋๊ฒ ๋ ๊ฒ์ด๋ค.
์ ํต์ ์ผ๋ก, ์์ recurrent hidden state์ ์ ๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ์ด ์ํ๋๋ค.
$\textbf{h}=g(W\textbf{x}_t+U\textbf{h}_{t-1})$
์ฌ๊ธฐ์ $g$๋ ๋ถ๋๋ฝ๊ฒ ๋ง๋ค์ด์ฃผ๋ ํจ์๋ก logistic sigmoid ๋๋ hyperbolic tangent ํจ์์ ๊ฐ์ ๊ฒ๋ค์ด๋ค.
generative RNN์ ํ์ฌ์ state $\textbf{h}_t$๊ฐ ์ฃผ์ด์ง๋ฉด, ์ํ์ค์ ๋ค์ ์์์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ๋ ฅํ๋ค. ๊ทธ๋ฆฌ๊ณ , ์ด๋ฌํ generative model์ ์ํ์ค์ ๋ง์ง๋ง์ ํํํ๋ ํน๋ณํ ๊ธฐํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๊ธธ์ด์ ์ํ์ค์ ํ๋ฅ ๋ถํฌ๋ฅผ ํ์ ํ ์ ์๋ค. ์ํ์ค ํ๋ฅ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ถํด๋ ์ ์๋ค.
$p(x_1,...,x_r)=p(x_1)p(x_2|x_1)p(x_3|x_1, x_2) \cdots p(x_r|x_1,...,x_{r-1})$
์ฌ๊ธฐ์ ๋ง์ง๋ง ์์๋ ํน๋ณํ ์ํ์ค์ ๋ง์ง๋ง์ ๊ฐ๋ฆฌํค๋ ๊ฐ์ด๋ค. ์ด๋ฌํ ๊ฐ๊ฐ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ชจ๋ธ๋งํ์๋ค.
$p(x_t|x_1,...,x_{t-1})=g(h_t)$
์ฌ๊ธฐ์ $h_t$๋ ๋งจ ์ฒ์ ์์์ผ๋ก๋ถํฐ ์ป์ ๊ฐ์ด๋ค. ์ด๋ฌํ generative RNN์ด ์ด ๋ ผ๋ฌธ์ ์คํ์ฒด ์ค ํ๋์ด๋ค.
ํ์ง๋ง, ์ํ๊น๊ฒ๋ RNN์ ์ฅ๊ธฐ์์กด์ฑ์ ํด๊ฒฐํ์ง ๋ชปํ๋ค๋ ํฌ๋ํฐ ๋ฌธ์ ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ด ์ฅ๊ธฐ์์กด์ฑ์ผ๋ก ์ธํ์ฌ ๊ธฐ์ธ๊ธฐ๊ฐ ์ฌ๋ผ์ง๊ฑฐ๋, ๋ฐ๋๋ก ํญ๋ฐํ๊ฒ ๋๋ gradient vanishing ๋ฌธ์ ์ gradient explosion ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ ์ฑ๋ฅ์ ํฌ๋ํฐ ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํด๊ฒฐ์ฑ ์ผ๋ก ๋ ๊ฐ์ง์ ๋ฐฉ๋ฒ์ด ์๊ฐ๋์๋ค.
- clipped gradient ์ฌ์ฉ: ๋ง ๊ทธ๋๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ clipํด๋๊ณ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ
- ๋์ฑ ๋ณต์กํ ํ์ฑํ ํจ์ ์ฌ์ฉ: affine์ผ๋ก ๊ตฌ์ฑ๋ gate unit์ ์ฌ์ฉํ๋ ๊ฒ์ธ๋ฐ, ์ด ๋ฐฉ๋ฒ์ ๋ํ์ ์ธ ์๊ฐ LSTM๊ณผ GRU์ธ ๊ฒ์ด๋ค. ์ด ๋์ ์ฅ๊ธฐ์์กด์ฑ ๋ฌธ์ ๋ฅผ ์ํํจ์ผ๋ก์จ RNN์ ๋์์ฑ ์ด ๋์๋ค.
3. Gated RNN
3-1. LSTM Unit
๊ธฐ์กด์ ์ ๋ ฅ ์๊ทธ๋์ ๊ฐ์ค์น ํฉ์ ๊ณ์ฐํ๊ณ , ๋น์ ํ ํจ์๋ฅผ ์ ์ฉํ๋ ์ฌํํ recurrent unit๊ณผ ๋ฌ๋ฆฌ, LSTM์ ๊ฐ $j$-๋ฒ์งธ unit์ time $t$์์ ๋ฉ๋ชจ๋ฆฌ $c_{t}^{j}$๋ฅผ ์ ์งํ๋ค. ์ถ๋ ฅ๊ฐ $h_{t}^{j}$, ๋๋ LSTM unit์ activation์ ๋ค์๊ณผ ๊ฐ๋ค.
$h_{t}^{j}=o_{t}^{j}tanh(c_{t}^{j})$
์ฌ๊ธฐ์ $o_{t}^{j}$๋ output gate๋ก, memory content๊ฐ ์ผ๋ง๋ ๋ ธ์ถ๋ ์ง๋ฅผ ์กฐ์ ํ๋ค. ์ด output gate๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
$o_{t}^{j}=\sigma(W_{o}\textbf{x}_{t}+U_{o}\textbf{H}_{t-1}+V_{o}\textbf{c}_{t})^{j}$
์ฌ๊ธฐ์ $\sigma$๋ logistic sigmoid ํจ์์ด๊ณ , $V_{o}$๋ ๋๊ฐํ๋ ฌ์ด๋ค.
๋ฉ๋ชจ๋ฆฌ ์ $c_{t}^{j}$๋ ํ์ฌ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ์๊ณ , ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ฝํ ์ธ $\tilde{c}_{t}^{j}$๊ฐ ์ถ๊ฐ๋๋ฉด์ ์ ๋ฐ์ดํธ ๋๋ค.
$c_{t}^{j}=f_{t}^{j}c_{t-1}^{j}+i_{t}^{j}\tilde{c}_{t}^{j}$
์ฌ๊ธฐ์ ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ฝํ ์ธ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
$\tilde{c}_{t}^{j}=tanh(W_{c}\textbf{x}_{t}+U_{c}\textbf{H}_{t-1})^{j}$
์กด์ฌํ๋ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ผ๋ง๋ ์์ ์ง๋ forget gate $f_{t}^{j}$์ ์ํด ์กฐ์ ๋๊ณ , ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ผ๋ง๋ ์ถ๊ฐ๋ ์ง๋ input gate $i_{t}^{j}$์ ์ํด ๊ฒฐ์ ๋๋ค. ๋ค์์ forget gate์ input gate๋ฅผ ๊ตฌํ๋ ์์์ด๋ค.
$f_{t}^{j} = \sigma (W_{f} \textbf{x}_{t} + U_{f} \textbf{h}_{t-1} + V_{i} \textbf{c}_{t-1})^{j}$
$i_{t}^{j} = \sigma (W_{i} \textbf{x}_{t} + U_{i} \textbf{h}_{t-1} + V_{i} \textbf{c}_{t-1})^{j}$
์ฌ๊ธฐ์ $V_f$์ $V_i$๋ ๋๊ฐ ํ๋ ฌ์ด๋ค.
๊ธฐ์กด์ revurrent unit์ ๊ฐ time-step์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ฎ์ด์ฐ๋ ๋ฐฉ์์ผ๋ก ์งํ๋์๋๋ฐ, LSTM์ ๋ณด์กดํ ๋ฉ๋ชจ๋ฆฌ๋ ๋ณด์กดํ๊ณ , ์์ด๋ฒ๋ฆด ๋ฉ๋ชจ๋ฆฌ๋ ์์ด๋ฒ๋ฆผ์ผ๋ก์จ ๊ธฐ์ตํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์กฐ์ ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ์ฅ๊ธฐ์์กด์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์๋ค. ์ด LSTM unit์ ๋๋ต์ ์ธ ๊ตฌ์กฐ๋ ์์ ๊ทธ๋ฆผ 1์ $($a$)$๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
3-2. GRU
GRU๋ LSTM๊ณผ ์ ์ฌํ๊ฒ gate unit์ด ์กด์ฌํ์ง๋ง, ๋ฐ๋ก memory cell์ ๊ฐ์ง๊ณ ์์ง ์๋ค.
์์ $t$์์ GRU์ activation $h_{t}^{j}$๋ ์ด์ activation $h_{t-1}^{j}$์ ํ๋ณด์ activation $\tilde{h}_{t}^{j}$์ ์ ํ ๋ณด๊ฐ์ด๋ค.
$h_{t}^{j}=(1-z_{t}^{j})h_{t-1}^{j} + z_{t}^{j}\tilde{h}_{t}^{j}$
์ฌ๊ธฐ์ update gate $z_{t}^{j}$๋ ์ด activation์ ์ผ๋ง๋ ์ ๋ฐ์ดํธํ ์ง ๊ฒฐ์ ํ๋ค. update gate๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
$z_{t}^{j}=\sigma (W_{z}\textbf{x}_{t} + U_{z}\textbf{H}_{t-1})^{j}$
๊ธฐ์กด์ state์ ์๋กญ๊ฒ ๊ณ์ฐ๋ state๊ฐ์ ์ ํ ๊ฒฐํฉ์ ๊ณ์ฐํ๋ ์ ์ฐจ๋ LSTM unit๊ณผ ์ ์ฌํ๋ค. ํ์ง๋ง, GRU๋ LSTM๊ณผ ๋ฌ๋ฆฌ ์ ์ฒด state๋ฅผ ๊ฐ ์์ ์ ๋์์ ๋ ธ์ถ์ํค๊ฒ ๋๋ค.
ํ๋ณด์ activation $\tilde{h}_{t}^{j}$๋ ๊ธฐ์กด์ recurrent unit๊ณผ ์ ์ฌํ๊ฒ ๊ณ์ฐ๋๋ค.
$\tilde{h}_{t}^{j}=tanh(W\textbf{x}_{t} + U (\textbf{r}_{t} \odot \textbf{h}_{t-1}))^{j}$
์ฌ๊ธฐ์ $\textbf{r}_t$๋ reset gate์ด๊ณ $\odot$์ element-wise ๊ณฑ์ด๋ค. ๋ง์ฝ $\textbf{r}_{t}^{j}$๊ฐ 0์ ๊ฐ๊น์์ง๋ฉด๋์ฑ ํ์คํ๊ฒ ์ด์ ์ state๋ฅผ ๊น๋จน๊ฒ ๋๋ค.
reset gate $r_{t}^{j}$๋ update gate์ ์ ์ฌํ๊ฒ ๊ณ์ฐ๋๋ค.
$r_{t}^{j}=\sigma (W_{r}\textbf{x}_{t} + U_{r}\textbf{h}_{t-1})^{j}$
๊ทธ๋ฆผ 1์ $($b$)$๋ฅผ ๋ณด๋ฉด GRU์ ๋๋ต์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ ์ ์๋ค.
3-3. Discussion
LSTM๊ณผ GRU๊ฐ ๊ณต์ ํ๋ ๊ฐ์ฅ ์ฃผ์ํ ํน์ง์ ์ ํต์ ์ธ RNN์์๋ ๋ถ์กฑํ ์ถ๊ฐ์ ์ธ ์์๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ด๋ค. ์ด ์ถ๊ฐ์ ์ธ ์์๋ฅผ ํตํด content๋ ์ ์งํ๊ณ , ๊ทธ ์์ ์๋ก์ด content๋ฅผ ์์ ์ ์๊ฒ ๋๋ค.
์ด๋ฌํ ์ถ๊ฐ์ ์ธ ์์๊ฐ ์กด์ฌํจ์ผ๋ก์จ ๋ค์์ ๋ ๊ฐ์ง ์ฅ์ ์ ์ป์ ์ ์๋ค.
- ๊ฐ unit์ด ์ ๋ ฅ stream์ ํน์ง์ ์ค๋ซ๋์ ๊ธฐ์ตํ ์ ์๋ค. ์ด๋ LSTM์ forget gate์ GRU์ upadte gate๋ก ๊ฒฐ์ ๋จ.
- multiple step์ ์ฐํํ๋ ์์ปท ์์ฑ. ์ด๋ฅผ ํตํด vanishing ์์ด error๊ฐ ์์ฝ๊ฒ ์ญ์ ํ ๋๋๋ก ํ์ฉํจ.
์ด LSTM๊ณผ GRU๋ ์ฐจ์ด์ ์ ๊ฐ์ง๊ณ ์๋๋ฐ, GRU์์๋ ์ฌ์ฉํ์ง ์๋ LSTM์ ํ ๊ฐ์ง ํน์ง์ memory content์ ๋ ธ์ถ์ ์กฐ์ ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. LSTM์ output gate์ ์ํด memory content์ ์๊ณผ unit์ด ์กฐ์ ๋๋ค. ์ด์ ๋ฐ๋๋ก GRU๋ ์ด๋ ํ ์กฐ์ ์์ด ๋ชจ๋ content๋ฅผ ๋๋ฌ๋ธ๋ค.
๋ ๋ค๋ฅธ ์ฐจ์ด์ ์ input gate์ ์์ํ๋ reset gate์ ์์น ์ฐจ์ด์ด๋ค. LSTM์ input gate์์ ์ด์ ์์ ์ผ๋ก๋ถํฐ ์ ๋ณด์ ํ๋ฆ์ ์๊ฐํ์ง ์๊ณ , forget gate์์ ์๋ก์ด memory cell์ด ๋ ๋ฆฝ์ ์ผ๋ก ์ถ๊ฐ๋๋ค. ์ด์๋ ๋ฐ๋๋ก, GRU๋ ์ด์ ์ activatiopn์ผ๋ก๋ถํฐ ์๋ก์ด activation์ ๊ณ์ฐํ ๋ ์กฐ์ ํ๋ค.
์ด๋ฌํ ๋ ๋ชจ๋ธ์ ์ฐจ์ด์ ๋๋ฌธ์, ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ๋ ๋ฐ์๋ ๋ง์ ์ด๋ ค์์ด ์์๋ค. ์ด๋ฌํ ์ ์ด ์ด ๋ ผ๋ฌธ์ ์ ์๋ค์ ์๊ทนํ์ฌ ์ข ๋ ์ธ๋ฐํ LSTM๊ณผ GRU์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ๋๋ก ์ด๋์ด๋๋ค.
4. Results and Analysis
๋ ผ๋ฌธ์ experiment์์๋ ์ด 3๊ฐ์ ๋ชจ๋ธ์ ๋น๊ตํ๋ค. ๋ฐ๋ก LSTM, GRU, tanh unit์ด๋ค. ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ฃผ๋ ๋ชฉ์ ์ ์ธ ๊ฐ์ ๋ชจ๋ธ์ ๊ณต์ ํ๊ฒ ๋น๊ตํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ๋ชจ๋ ๊ฐ์ ์์ parameter์ ๊ฐ์ง๋๋ก ๊ตฌ์ฑํ์๊ณ , ๋ชจ๋ธ์ ์ต๋ํ ์๊ฒ ๋ง๋ค์ด์ ์ค๋ฒํผํ ์ ๋ฐฉ์งํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์ธ๋ถ์ฌํญ์ ํ 1๊ณผ ๊ฐ๊ณ , ๊ทธ์ ๋ํ ๊ฒฐ๊ณผ๋ ํ 2์ ๊ฐ๋ค.
์ ํ 2๋ฅผ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด, ๊ธฐ์กด์ recurrent unit์ธ tanh unit๋ณด๋ค gating unit์ธ LSTM๊ณผ GRU๊ฐ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ GRU๋ํ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ LSTM๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋ ๋ค๊ณ GRU๊ฐ LSTM๋ณด๋ค ๋ ์ฐ์ํ๋ค๊ณ ๋จ์ ํ ์๋ ์๋ค. ํน์ ๋ฐ์ดํฐ์ ์์๋ GRU๊ฐ LSTM๋ณด๋ค ๋ ๋น ๋ฅธ learning curve ์๋ ด์ ๋ณด์ฌ์ฃผ๊ธด ํ๋ค.
ํ์ง๋ง, ๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ์คํ๋ ค LSTM์ด GRU๋ณด๋ค ๋น ๋ฅธ ์๋ ด์ ๋ณด์ฌ์ค๋ค.
๋ฐ๋ผ์, LSTM๊ณผ GRU์ ์ฑ๋ฅ์ ๋ฐ์ดํฐ์ ๊ณผ ๊ทธ์ ์์ํ๋ task์ ํฌ๊ฒ ์ข์ง์ฐ์ง๋๋ค๋ ์ฌ์ค์ ์ ์ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/1412.3555
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
In this paper we compare different types of recurrent units in recurrent neural networks (RNNs). Especially, we focus on more sophisticated units that implement a gating mechanism, such as a long short-term memory (LSTM) unit and a recently proposed gated
arxiv.org
'Paper Reading ๐ > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Zero-shot, One-shot, Few-shot Learning์ด ๋ฌด์์ผ๊น? (3) | 2023.03.12 |
---|---|
Prompt Engineering์ด ๋ฌด์์ผ๊น? (0) | 2023.03.01 |
์๊ธฐ ์ฝ๊ฒ LSTM networks ์ดํดํ๊ธฐ (2) | 2023.01.27 |
Distilling the Knowledge in a Neural Network ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (0) | 2023.01.26 |
CNN network์ ์ญ์ฌ (0) | 2022.12.14 |