The overview of this paper
RNN ์ฆ, recurrent neural network๋ ์ค๋ ์๊ฐ ๋์ ์ฌ์ฉ๋์ด์จ ์ ๊ฒฝ๋ง์ด๋ค. ํ์ง๋ง, ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ฒ๋ฆฌํด์ผ ํ๋ ๋ฐ์ดํฐ์ ์์ด ๋ง์์ง๊ณผ task์ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ์ RNN์ผ๋ก๋ถํฐ ์ฅ๊ธฐ์์กด์ฑ์ ๋ฌธ์ ๊ฐ ์กด์ฌํจ์ ์๊ฒ ๋์๋ค. $($์ฅ๊ธฐ์์กด์ฑ์ ๋ํด ์ ๋ชจ๋ฅด์ ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!!$)$ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด gating unit์ ๊ฐ์ง๊ณ ์๋ ์๋ก์ด RNN ๋ชจ๋ธ๋ค์ธ LSTM๊ณผ GRU ๋ฑ์ด ๋ฑ์ฅํ๊ฒ ๋์๋ค. ์ด ๋์ ์๋นํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๋ ์ค ์ด๋ค ๊ฒ์ด ๋ ์ฐ์ํ ๋ชจ๋ธ์ธ์ง์ ๋ํด์๋ ์๊ฒฌ์ด ๋ถ๋ถํ๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ ผ๋์ ์ ์ฌ์ฐ๊ณ ์ ์ข ๋ ์ธ๋ฐํ๊ฒ ์ด ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํด๋ณด๊ณ ์ ํ์๋ค.
Table of Contents
1. Introduction
2. Background: RNN
3. Gated RNN
3-1. LSTM Unit
3-2. GRU
3-3. Discussion
4. Results and Analysis
1. Introduction
๋ ผ๋ฌธ์ด ์์ฑ๋์์ ๋น์์ ๋ฅ๋ฌ๋ task๋ค์์ ์ข์ ์ฑ๋ฅ์ ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ ์ดํด๋ณด๋ฉด ๋๋ถ๋ถ์ด RNN์ผ๋ก๋ถํฐ ํ์๋ ๋ชจ๋ธ๋ค์ด์๋ค. ๊ทธ ์ค์์๋ ์ด ๋ ผ๋ฌธ์์๋ LSTM๊ณผ GRU์ ๋ํด์ ๊น์ ๊ด์ฌ์ ๊ฐ์ก๋ค. GRU๋ LSTM์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ ๋ถ์ผ์ธ ์ฅ๊ธฐ์์กด์ฑ์ ๊ฐ์ง๊ณ ์๋ sequence ๊ธฐ๋ฐ์ task์์ ์ ์๋ํ๋๋ก ์ค๊ณ๋์์ง๋ง, ์ต๊ทผ์ ๊ณต๊ฐ๋ ๋ชจ๋ธ๋ก ์์ง machine translation ๋ถ์ผ์์ ์ ๋ ๋ฐ์ ์ฌ์ฉ๋์ง ์์์๋ค.
๊ทธ๋์ ์ด๋ค์ ์ฑ๋ฅ์ ์ ๋๋ก ๋น๊ตํด๋ณด๊ณ ์, LSTM, GRU, tanh$($์ ํต์ ์ธ RNN unit$)$ ์ด๋ ๊ฒ ์ธ ๊ฐ์ ๋ชจ๋ธ์ polyphonic music dataset์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค.
์คํ์ ๊ฒฐ๊ณผ๋ถํฐ ์ด~์ง ์คํฌ๋ฅผ ํ์๋ฉด! gating unit ์ฆ, LSTM๊ณผ GRU๊ฐ tanh ๋ชจ๋ธ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ์ ํ๋ parameter์ ์์์๋ GRU๊ฐ LSTM์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค๊ณ ํ๋ค.
2. Background: RNN
RNN์ ๋ค์ํ ๊ธธ์ด์ sequence ์ ๋ ฅ์ ๋ค๋ฃฐ ์ ์๋ ๊ธฐ์กด์ feedforward neural network์ ์ฐ์ฅ์ ์ธ ์ ์ด๋ค. RNN์ ๋ค์ํ ๊ธธ์ด์ sequence ์ ๋ ฅ์ ์ด์ ์ activation์ ์์กดํ๋ ๊ฐ ์์ ์ activation์ ๊ฐ์ง๋ recurrent hidden state๋ฅผ ์ฌ์ฉํ์ฌ ๋ค๋ฃฌ๋ค.
์ด๋ฅผ ์ข ๋ ๊ณต์์ ์ผ๋ก ํํํ๋ฉด, sequence $x = (x_1, x_2, ..., x_r)$์ด ์ฃผ์ด์ง๋ฉด, RNN์ recurrent hidden state $h_t$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฐ์ดํธ ํ๋ค.
$\textbf{h}_t=\left\{\begin{matrix}
0, t=0 \\\phi (\textbf{h}_{t-1}, x_t), otherwise
\end{matrix}\right.$
์ฌ๊ธฐ์ $\phi$๋ ๋น์ ํ ํจ์๋ก ์๋ฅผ ๋ค์ด affine ๋ณํ์ด ์๋ logistic sigmoid์ ๊ฒฐํฉ์ธ ์ ์ด๋ค. ์ด๋ฅผ ํตํด, RNN์ ๋ ๋ค์ ๋ค์ํ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋ ์ถ๋ ฅ๊ฐ $\textbf{y}=(y_1, y_2,...,y_r)$์ด ๋๊ฒ ๋ ๊ฒ์ด๋ค.
์ ํต์ ์ผ๋ก, ์์ recurrent hidden state์ ์ ๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ์ด ์ํ๋๋ค.
$\textbf{h}=g(W\textbf{x}_t+U\textbf{h}_{t-1})$
์ฌ๊ธฐ์ $g$๋ ๋ถ๋๋ฝ๊ฒ ๋ง๋ค์ด์ฃผ๋ ํจ์๋ก logistic sigmoid ๋๋ hyperbolic tangent ํจ์์ ๊ฐ์ ๊ฒ๋ค์ด๋ค.
generative RNN์ ํ์ฌ์ state $\textbf{h}_t$๊ฐ ์ฃผ์ด์ง๋ฉด, ์ํ์ค์ ๋ค์ ์์์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ๋ ฅํ๋ค. ๊ทธ๋ฆฌ๊ณ , ์ด๋ฌํ generative model์ ์ํ์ค์ ๋ง์ง๋ง์ ํํํ๋ ํน๋ณํ ๊ธฐํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๊ธธ์ด์ ์ํ์ค์ ํ๋ฅ ๋ถํฌ๋ฅผ ํ์ ํ ์ ์๋ค. ์ํ์ค ํ๋ฅ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ถํด๋ ์ ์๋ค.
$p(x_1,...,x_r)=p(x_1)p(x_2|x_1)p(x_3|x_1, x_2) \cdots p(x_r|x_1,...,x_{r-1})$
์ฌ๊ธฐ์ ๋ง์ง๋ง ์์๋ ํน๋ณํ ์ํ์ค์ ๋ง์ง๋ง์ ๊ฐ๋ฆฌํค๋ ๊ฐ์ด๋ค. ์ด๋ฌํ ๊ฐ๊ฐ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ชจ๋ธ๋งํ์๋ค.
$p(x_t|x_1,...,x_{t-1})=g(h_t)$
์ฌ๊ธฐ์ $h_t$๋ ๋งจ ์ฒ์ ์์์ผ๋ก๋ถํฐ ์ป์ ๊ฐ์ด๋ค. ์ด๋ฌํ generative RNN์ด ์ด ๋ ผ๋ฌธ์ ์คํ์ฒด ์ค ํ๋์ด๋ค.
ํ์ง๋ง, ์ํ๊น๊ฒ๋ RNN์ ์ฅ๊ธฐ์์กด์ฑ์ ํด๊ฒฐํ์ง ๋ชปํ๋ค๋ ํฌ๋ํฐ ๋ฌธ์ ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ด ์ฅ๊ธฐ์์กด์ฑ์ผ๋ก ์ธํ์ฌ ๊ธฐ์ธ๊ธฐ๊ฐ ์ฌ๋ผ์ง๊ฑฐ๋, ๋ฐ๋๋ก ํญ๋ฐํ๊ฒ ๋๋ gradient vanishing ๋ฌธ์ ์ gradient explosion ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ ์ฑ๋ฅ์ ํฌ๋ํฐ ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํด๊ฒฐ์ฑ ์ผ๋ก ๋ ๊ฐ์ง์ ๋ฐฉ๋ฒ์ด ์๊ฐ๋์๋ค.
- clipped gradient ์ฌ์ฉ: ๋ง ๊ทธ๋๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ clipํด๋๊ณ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ
- ๋์ฑ ๋ณต์กํ ํ์ฑํ ํจ์ ์ฌ์ฉ: affine์ผ๋ก ๊ตฌ์ฑ๋ gate unit์ ์ฌ์ฉํ๋ ๊ฒ์ธ๋ฐ, ์ด ๋ฐฉ๋ฒ์ ๋ํ์ ์ธ ์๊ฐ LSTM๊ณผ GRU์ธ ๊ฒ์ด๋ค. ์ด ๋์ ์ฅ๊ธฐ์์กด์ฑ ๋ฌธ์ ๋ฅผ ์ํํจ์ผ๋ก์จ RNN์ ๋์์ฑ ์ด ๋์๋ค.
3. Gated RNN
3-1. LSTM Unit
๊ธฐ์กด์ ์ ๋ ฅ ์๊ทธ๋์ ๊ฐ์ค์น ํฉ์ ๊ณ์ฐํ๊ณ , ๋น์ ํ ํจ์๋ฅผ ์ ์ฉํ๋ ์ฌํํ recurrent unit๊ณผ ๋ฌ๋ฆฌ, LSTM์ ๊ฐ $j$-๋ฒ์งธ unit์ time $t$์์ ๋ฉ๋ชจ๋ฆฌ $c_{t}^{j}$๋ฅผ ์ ์งํ๋ค. ์ถ๋ ฅ๊ฐ $h_{t}^{j}$, ๋๋ LSTM unit์ activation์ ๋ค์๊ณผ ๊ฐ๋ค.
$h_{t}^{j}=o_{t}^{j}tanh(c_{t}^{j})$
์ฌ๊ธฐ์ $o_{t}^{j}$๋ output gate๋ก, memory content๊ฐ ์ผ๋ง๋ ๋ ธ์ถ๋ ์ง๋ฅผ ์กฐ์ ํ๋ค. ์ด output gate๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
$o_{t}^{j}=\sigma(W_{o}\textbf{x}_{t}+U_{o}\textbf{H}_{t-1}+V_{o}\textbf{c}_{t})^{j}$
์ฌ๊ธฐ์ $\sigma$๋ logistic sigmoid ํจ์์ด๊ณ , $V_{o}$๋ ๋๊ฐํ๋ ฌ์ด๋ค.
๋ฉ๋ชจ๋ฆฌ ์ $c_{t}^{j}$๋ ํ์ฌ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ์๊ณ , ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ฝํ ์ธ $\tilde{c}_{t}^{j}$๊ฐ ์ถ๊ฐ๋๋ฉด์ ์ ๋ฐ์ดํธ ๋๋ค.
$c_{t}^{j}=f_{t}^{j}c_{t-1}^{j}+i_{t}^{j}\tilde{c}_{t}^{j}$
์ฌ๊ธฐ์ ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ฝํ ์ธ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
$\tilde{c}_{t}^{j}=tanh(W_{c}\textbf{x}_{t}+U_{c}\textbf{H}_{t-1})^{j}$
์กด์ฌํ๋ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ผ๋ง๋ ์์ ์ง๋ forget gate $f_{t}^{j}$์ ์ํด ์กฐ์ ๋๊ณ , ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ผ๋ง๋ ์ถ๊ฐ๋ ์ง๋ input gate $i_{t}^{j}$์ ์ํด ๊ฒฐ์ ๋๋ค. ๋ค์์ forget gate์ input gate๋ฅผ ๊ตฌํ๋ ์์์ด๋ค.
$f_{t}^{j} = \sigma (W_{f} \textbf{x}_{t} + U_{f} \textbf{h}_{t-1} + V_{i} \textbf{c}_{t-1})^{j}$
$i_{t}^{j} = \sigma (W_{i} \textbf{x}_{t} + U_{i} \textbf{h}_{t-1} + V_{i} \textbf{c}_{t-1})^{j}$
์ฌ๊ธฐ์ $V_f$์ $V_i$๋ ๋๊ฐ ํ๋ ฌ์ด๋ค.
๊ธฐ์กด์ revurrent unit์ ๊ฐ time-step์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ฎ์ด์ฐ๋ ๋ฐฉ์์ผ๋ก ์งํ๋์๋๋ฐ, LSTM์ ๋ณด์กดํ ๋ฉ๋ชจ๋ฆฌ๋ ๋ณด์กดํ๊ณ , ์์ด๋ฒ๋ฆด ๋ฉ๋ชจ๋ฆฌ๋ ์์ด๋ฒ๋ฆผ์ผ๋ก์จ ๊ธฐ์ตํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์กฐ์ ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ์ฅ๊ธฐ์์กด์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์๋ค. ์ด LSTM unit์ ๋๋ต์ ์ธ ๊ตฌ์กฐ๋ ์์ ๊ทธ๋ฆผ 1์ $($a$)$๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
3-2. GRU
GRU๋ LSTM๊ณผ ์ ์ฌํ๊ฒ gate unit์ด ์กด์ฌํ์ง๋ง, ๋ฐ๋ก memory cell์ ๊ฐ์ง๊ณ ์์ง ์๋ค.
์์ $t$์์ GRU์ activation $h_{t}^{j}$๋ ์ด์ activation $h_{t-1}^{j}$์ ํ๋ณด์ activation $\tilde{h}_{t}^{j}$์ ์ ํ ๋ณด๊ฐ์ด๋ค.
$h_{t}^{j}=(1-z_{t}^{j})h_{t-1}^{j} + z_{t}^{j}\tilde{h}_{t}^{j}$
์ฌ๊ธฐ์ update gate $z_{t}^{j}$๋ ์ด activation์ ์ผ๋ง๋ ์ ๋ฐ์ดํธํ ์ง ๊ฒฐ์ ํ๋ค. update gate๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
$z_{t}^{j}=\sigma (W_{z}\textbf{x}_{t} + U_{z}\textbf{H}_{t-1})^{j}$
๊ธฐ์กด์ state์ ์๋กญ๊ฒ ๊ณ์ฐ๋ state๊ฐ์ ์ ํ ๊ฒฐํฉ์ ๊ณ์ฐํ๋ ์ ์ฐจ๋ LSTM unit๊ณผ ์ ์ฌํ๋ค. ํ์ง๋ง, GRU๋ LSTM๊ณผ ๋ฌ๋ฆฌ ์ ์ฒด state๋ฅผ ๊ฐ ์์ ์ ๋์์ ๋ ธ์ถ์ํค๊ฒ ๋๋ค.
ํ๋ณด์ activation $\tilde{h}_{t}^{j}$๋ ๊ธฐ์กด์ recurrent unit๊ณผ ์ ์ฌํ๊ฒ ๊ณ์ฐ๋๋ค.
$\tilde{h}_{t}^{j}=tanh(W\textbf{x}_{t} + U (\textbf{r}_{t} \odot \textbf{h}_{t-1}))^{j}$
์ฌ๊ธฐ์ $\textbf{r}_t$๋ reset gate์ด๊ณ $\odot$์ element-wise ๊ณฑ์ด๋ค. ๋ง์ฝ $\textbf{r}_{t}^{j}$๊ฐ 0์ ๊ฐ๊น์์ง๋ฉด๋์ฑ ํ์คํ๊ฒ ์ด์ ์ state๋ฅผ ๊น๋จน๊ฒ ๋๋ค.
reset gate $r_{t}^{j}$๋ update gate์ ์ ์ฌํ๊ฒ ๊ณ์ฐ๋๋ค.
$r_{t}^{j}=\sigma (W_{r}\textbf{x}_{t} + U_{r}\textbf{h}_{t-1})^{j}$
๊ทธ๋ฆผ 1์ $($b$)$๋ฅผ ๋ณด๋ฉด GRU์ ๋๋ต์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ ์ ์๋ค.
3-3. Discussion
LSTM๊ณผ GRU๊ฐ ๊ณต์ ํ๋ ๊ฐ์ฅ ์ฃผ์ํ ํน์ง์ ์ ํต์ ์ธ RNN์์๋ ๋ถ์กฑํ ์ถ๊ฐ์ ์ธ ์์๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ด๋ค. ์ด ์ถ๊ฐ์ ์ธ ์์๋ฅผ ํตํด content๋ ์ ์งํ๊ณ , ๊ทธ ์์ ์๋ก์ด content๋ฅผ ์์ ์ ์๊ฒ ๋๋ค.
์ด๋ฌํ ์ถ๊ฐ์ ์ธ ์์๊ฐ ์กด์ฌํจ์ผ๋ก์จ ๋ค์์ ๋ ๊ฐ์ง ์ฅ์ ์ ์ป์ ์ ์๋ค.
- ๊ฐ unit์ด ์ ๋ ฅ stream์ ํน์ง์ ์ค๋ซ๋์ ๊ธฐ์ตํ ์ ์๋ค. ์ด๋ LSTM์ forget gate์ GRU์ upadte gate๋ก ๊ฒฐ์ ๋จ.
- multiple step์ ์ฐํํ๋ ์์ปท ์์ฑ. ์ด๋ฅผ ํตํด vanishing ์์ด error๊ฐ ์์ฝ๊ฒ ์ญ์ ํ ๋๋๋ก ํ์ฉํจ.
์ด LSTM๊ณผ GRU๋ ์ฐจ์ด์ ์ ๊ฐ์ง๊ณ ์๋๋ฐ, GRU์์๋ ์ฌ์ฉํ์ง ์๋ LSTM์ ํ ๊ฐ์ง ํน์ง์ memory content์ ๋ ธ์ถ์ ์กฐ์ ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. LSTM์ output gate์ ์ํด memory content์ ์๊ณผ unit์ด ์กฐ์ ๋๋ค. ์ด์ ๋ฐ๋๋ก GRU๋ ์ด๋ ํ ์กฐ์ ์์ด ๋ชจ๋ content๋ฅผ ๋๋ฌ๋ธ๋ค.
๋ ๋ค๋ฅธ ์ฐจ์ด์ ์ input gate์ ์์ํ๋ reset gate์ ์์น ์ฐจ์ด์ด๋ค. LSTM์ input gate์์ ์ด์ ์์ ์ผ๋ก๋ถํฐ ์ ๋ณด์ ํ๋ฆ์ ์๊ฐํ์ง ์๊ณ , forget gate์์ ์๋ก์ด memory cell์ด ๋ ๋ฆฝ์ ์ผ๋ก ์ถ๊ฐ๋๋ค. ์ด์๋ ๋ฐ๋๋ก, GRU๋ ์ด์ ์ activatiopn์ผ๋ก๋ถํฐ ์๋ก์ด activation์ ๊ณ์ฐํ ๋ ์กฐ์ ํ๋ค.
์ด๋ฌํ ๋ ๋ชจ๋ธ์ ์ฐจ์ด์ ๋๋ฌธ์, ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ๋ ๋ฐ์๋ ๋ง์ ์ด๋ ค์์ด ์์๋ค. ์ด๋ฌํ ์ ์ด ์ด ๋ ผ๋ฌธ์ ์ ์๋ค์ ์๊ทนํ์ฌ ์ข ๋ ์ธ๋ฐํ LSTM๊ณผ GRU์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ๋๋ก ์ด๋์ด๋๋ค.
4. Results and Analysis
๋ ผ๋ฌธ์ experiment์์๋ ์ด 3๊ฐ์ ๋ชจ๋ธ์ ๋น๊ตํ๋ค. ๋ฐ๋ก LSTM, GRU, tanh unit์ด๋ค. ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ฃผ๋ ๋ชฉ์ ์ ์ธ ๊ฐ์ ๋ชจ๋ธ์ ๊ณต์ ํ๊ฒ ๋น๊ตํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ๋ชจ๋ ๊ฐ์ ์์ parameter์ ๊ฐ์ง๋๋ก ๊ตฌ์ฑํ์๊ณ , ๋ชจ๋ธ์ ์ต๋ํ ์๊ฒ ๋ง๋ค์ด์ ์ค๋ฒํผํ ์ ๋ฐฉ์งํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์ธ๋ถ์ฌํญ์ ํ 1๊ณผ ๊ฐ๊ณ , ๊ทธ์ ๋ํ ๊ฒฐ๊ณผ๋ ํ 2์ ๊ฐ๋ค.
์ ํ 2๋ฅผ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด, ๊ธฐ์กด์ recurrent unit์ธ tanh unit๋ณด๋ค gating unit์ธ LSTM๊ณผ GRU๊ฐ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ GRU๋ํ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ LSTM๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋ ๋ค๊ณ GRU๊ฐ LSTM๋ณด๋ค ๋ ์ฐ์ํ๋ค๊ณ ๋จ์ ํ ์๋ ์๋ค. ํน์ ๋ฐ์ดํฐ์ ์์๋ GRU๊ฐ LSTM๋ณด๋ค ๋ ๋น ๋ฅธ learning curve ์๋ ด์ ๋ณด์ฌ์ฃผ๊ธด ํ๋ค.
ํ์ง๋ง, ๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ์คํ๋ ค LSTM์ด GRU๋ณด๋ค ๋น ๋ฅธ ์๋ ด์ ๋ณด์ฌ์ค๋ค.
๋ฐ๋ผ์, LSTM๊ณผ GRU์ ์ฑ๋ฅ์ ๋ฐ์ดํฐ์ ๊ณผ ๊ทธ์ ์์ํ๋ task์ ํฌ๊ฒ ์ข์ง์ฐ์ง๋๋ค๋ ์ฌ์ค์ ์ ์ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/1412.3555
'Paper Reading ๐ > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Zero-shot, One-shot, Few-shot Learning์ด ๋ฌด์์ผ๊น? (2) | 2023.03.12 |
---|---|
Prompt Engineering์ด ๋ฌด์์ผ๊น? (0) | 2023.03.01 |
์๊ธฐ ์ฝ๊ฒ LSTM networks ์ดํดํ๊ธฐ (2) | 2023.01.27 |
Distilling the Knowledge in a Neural Network ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (0) | 2023.01.26 |
CNN network์ ์ญ์ฌ (0) | 2022.12.14 |