What is the purpose of this paper?
Transformer๋ longer-term dependency๋ฅผ ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ด ์์ง๋ง, ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฌธ๋งฅ( fixed-length context)๋ก ์ธํด ์ ํ๋ฐ๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋ ์๋ก์ด ์ ๊ฒฝ๋ง architecture์ธ Transformer-XL์ ์๊ฐํ๋ค. ์ด๊ฒ์ ๊ณ ์ ๋ ๋ฌธ๋งฅ(fixed context)์ ๋จ์ ์ ํด๊ฒฐํ๋, ์๊ฐ์ ์ธ ์ผ๊ด์ฑ์ ํด์น์ง ์๋ ์๋ก์ด architecture์ด๋ค. ์ด Transforemr-XL์ longer-term dependency๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ ๋ฟ๋ง ์๋๋ผ, context fragmentation ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๋ค. ์ด๋ค์ ๋ํด์๋ ๋ณธ๋ฌธ์์ ์ดํด๋ณด๋๋ก ํ๊ฒ ๋ค.
Table of Contents
1. Introduction
2. Model
2-1. Vanilla Transformer Language Models
2-2. Segment-Level Recurrence with State Reuse
2-3. Relative Positional Encodings
3. Ablation Study
4. Conclusion
1. Introduction
๊ธฐ์กด RNN๊ณผ LSTM์ ๋ฌธ์ ์
Language Modeling์ ์ฅ๊ธฐ์์กด์ฑ(long-term dependency)๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์๊ตฌํ๋ ์ค์ํ ๋ฌธ์ ์ด๋ค. ํ์ง๋ง, ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ฅผ ์ ์ฉํด์ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ์ ๋ํด ์ฅ๊ธฐ ์์กด์ฑ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ ๋ค. RNN๊ณผ LSTM network๋ language modeling์ ํ๋ณธ์ด ๋์๊ณ , ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฐ ๋ค์ํ ํ์ฉ ๊ฐ๋ฅ์ฑ์๋ ๋ถ๊ตฌํ๊ณ , RNN์ ๊ฒฝ์ฌ ์ฌ๋ผ์ง(gradient vanishing)๊ณผ ํญ๋ฐ ๋ฌธ์ ๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ์ต์ ํ๋ฅผ ํ๊ธฐ ์ด๋ ค์ ๋ค. ๊ทธ๋ฆฌ๊ณ LSTM์ gradient clipping ๊ธฐ์ ๋ํ ์ด ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ์๋ ๋ถ์กฑํ๋ค.
context fragmentation
๋ฐ๋ฉด์, ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ ๋จ์ด ์งํํ ๋ ์ง์ ์ ์ธ ์ฐ๊ฒฐ์ ์ง๋ attention ๋ฉ์ปค๋์ฆ์ ์ต์ ํ๋ฅผ ์ฝ๊ฒ ๋ง๋ค์๊ณ , ์ฅ๊ธฐ์์กด์ฑ์ ํ์ตํ ์ ์๊ฒ ๋ง๋ค์๋ค. ์ต๊ทผ์๋, character-level๋ก deep Transformer ๋คํธ์ํฌ๋ฅผ ํ์ต์์ผฐ๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , LM ํ๋ จ์ ์๋ฌด๋ฐ ์ ๋ณด์ ํ๋ฆ ์์ด, ๋ช๋ฐฑ ๊ฐ์ character์ ๋ถ๋ฆฌ๋์ด ์๋ ๊ณ ์ ๋ ๊ธธ์ด์ segment ์์์ ์ํ๋์๋ค. ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฌธ๋งฅ์์์ ํ๋ จ์ ์ฌ์ ์ ์ ์๋์ด ์๋ ๋ฌธ๋งฅ์ ๊ธธ์ด๋ณด๋ค ๋ ๊ธด ์ฅ๊ธฐ ์์กด์ฑ์ ํด๊ฒฐํ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ , ๊ณ ์ ๋ ๊ธธ์ด์ segment๋ค์ ๋ฌธ์ฅ์ด๋ ์ด๋ ํ ๋ฌธ๋งฅ์ ๊ธฐ์ค์ ์๊ฐํ์ง ์๊ณ ๊ทธ์ ์ฐ์๋๋ symbol๋ค์ ๋ฉ์ด๋ฆฌ๋ฅผ ์ ํํด์ ์์ฑ๋๋ค. ๊ทธ๋์, ๋ชจ๋ธ์ ์ฒซ ๋ช ๊ฐ์ symbol๋ค์ ์์ธกํ๊ธฐ ์ํด์ ํ์ํ ํ์์ ์ธ ๋ฌธ๋งฅ์ ์ ๋ณด๋ค์ด ๋ถ์กฑํด์, ์ต์ ํ๊ฐ ์ ๋์ง ์๊ณ , ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฌธ์ ๋ฅผ ์ผ์ผํจ๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ context fragmentation์ด๋ผ๊ณ ํ๋ค.
Transformer-XL์ ์ ์
์์ ๋งํ๋ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฌธ๋งฅ์ผ๋ก ์ธํ ์ ์ฝ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด ๋ ผ๋ฌธ์์๋ ์๋ก์ด architecture์ธ Transformer-XL์ ์๊ฐํ์๋ค. ์ฌ๊ธฐ์ XL๋ extra long์ ์ค์๋ง๋ก ๋์ฑ ๊ธด ๋ด์ฉ์ ํ์ ํ ์ ์๋ค๋ ์๋ฏธ์ด๋ค. ๋ ผ๋ฌธ์ Transformer-XL์ ๊น์ self-attention ๋คํธ์ํฌ์ ๋ฐ๋ณต์ ๋ํ ๊ฐ๋ ์ ์๊ฐํ์๋ค. ํนํ, ์๋ก์ด segment์ ๋ํด ๋ฐ๋ฐ๋ฅ๋ถํฐ hidden state๋ฅผ ๊ณ์ฐํ๊ธฐ ๋ณด๋ค๋, ์ด์ ์ segment์์ ์ป์ด๋ธ hidden state๋ฅผ ๋ค์ ์ฌ์ฉํ๋ค. ์ฌ์ฌ์ฉ๋ hidden state๋ ํ segment์ ๋ฉ๋ชจ๋ฆฌ์ ์ญํ ์ ํ๋๋ฐ, ์ด๋ segment๋ค ๊ฐ์ ๋ฐ๋ณต๋๋ ์ฐ๊ฒฐ์ ์ถ์ ํ๊ฒ ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ ๋ณด๋ค์ด ๋ฐ๋ณต๋๋ ์ฐ๊ฒฐ์ ํตํด ์ ํ๋๊ธฐ ๋๋ฌธ์, ๋งค์ฐ ๊ธด ์ฅ๊ธฐ ์์กด์ฑ์ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ก๋ค. ๋ฐ๋ฉด์, ์ด์ ์ segment์์ ๋์ด์จ ์ ๋ณด๋ค์ context fragmentation ๋ฌธ์ ๋ํ ํด๊ฒฐํ ์ ์์๋ค. ๊ฒ๋ค๊ฐ, ์ผ์์ ์ธ ํผ๋(temporal confusion)์ ๋ฐ์์ํค์ง ์๊ณ hidden state๋ฅผ ์ฌ์ฌ์ฉํ๊ธฐ ์ํด์๋ absolute positional encoding๋ณด๋ค relative positional encoding์ ์ฌ์ฉํด์ผ ํ๋ ํ์์ฑ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋์, ์ถ๊ฐ์ ์ผ๋ก ๊ธฐ์ ์ ์ธ contribution์ผ๋ก, ๋ ผ๋ฌธ์์๋ ํ๋ จ ์ค์ ๊ด์ฐฐํ ๊ฒ๋ณด๋ค ๋ ๊ธด attention ๊ธธ์ด๋ฅผ ์ผ๋ฐํํ๋ ๊ฐ๋จํ์ง๋ง ๋์ฑ ๊ฐ๋ ฅํ relative positional encoding์ ์๊ฐํ์๋ค.
Main techinical contributions
๋ ผ๋ฌธ์์์ ์ฃผ๋ ๊ธฐ์ ์ contribution์ self-attention ๋ชจ๋ธ์์์ ๋ฐ๋ณต์ ๊ฐ๋ ์ ๋์ ํ๊ณ ์๋ก์ด positional encoding ์ฒด๊ณ๋ฅผ ๋์ถํ๋ ๊ฒ์ด๋ค. ์ด ๋ ๊ฐ์ ๊ธฐ์ ์ ๋ฌธ์ ํด๊ฒฐ์ ์ํ solution์ ์์ฑ๋ ์ธํธ์ด๋ค. ์ด ๋ ์ค์ ํ๋๋ง์ผ๋ก๋ ๊ณ ์ ๋ ๊ธธ์ด์ context๋ก ์ธํด ์๊ธฐ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
2. Model
corpus $x=(x_{1}, ..., x_{T})$๊ฐ ์ฃผ์ด์ง๋ฉด, language modeling์ ๋ชฉํ๋ ๊ณต๋ ํ๋ฅ (joint probability) $P(x)$์ ์ธก์ ํ๋ ๊ฒ์ด๋ค. ์ด $P(x)$๋ ์๋ ํ๊ท์ ์ผ๋ก ๋ถํดํด์ $P(x)=\prod_{t}^{}P(x_{t} | x_{<t})$ ์ผ๋ก ํํ๋๋ค. ์ธ์๋ถํด๋ฅผ ํตํด ๋ฌธ์ ๋ ๊ฐ ์กฐ๊ฑด๋ถ ์์ธ์ ์ถ์ ํ๋ ๊ฒ์ผ๋ก ์ถ์๋๋ค. ์ด ์์ ์์ ๋ ผ๋ฌธ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ตฌํ๊ธฐ ์ํ ํ์ค์ ์ธ ๋ฐฉ๋ฒ์ ๊ณ ์ํ๋ค. ํนํ, ํ๋ จ ๊ฐ๋ฅํ ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ context &x_{<t}&๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ์ hidden state๋ก ์ธ์ฝ๋ ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค. ์ด ๊ฐ์ logit์ ์ป๊ธฐ ์ํด word embedding๊ณผ ๊ณฑํด์ง๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด logit๋ค์ Softmax ํจ์๋ฅผ ์ง๋์, ๋ค์ token์ ๋ํ ์ ๋์ ์ธ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฐ์ถํ๊ฒ ๋๋ค.
2-1. Vanilla Transformer Language Models
Transformer ๋๋ self-attention์ language modeling์ ์ ์ฉํ ๋ ๊ฐ์ฅ ํฐ ๋ฌธ์ ์ ์ ์ ๋ฉ๋๋ก์ ๊ธธ์ด์ธ context๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ์ representation์ผ๋ก ์ธ์ฝ๋ํ๋๋ก Transformer๋ฅผ ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก ํ๋ จ์ํฌ์ง์ด๋ค. ๋ฌดํํ ์ฉ๋์ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ๋ฅ๋ ฅ์ด ์ฅ์ด์ง๋ค๋ฉด, ๊ทธ๋ฆฌ ํฐ ๋ฌธ์ ๊ฐ ๋์ง ์์ง๋ง, ํ์ค์์๋ ์ ํ๋ ์์๋ง์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ๋ถ๊ฐ๋ฅํ๋ค.
ํ๋์ ์คํ ๊ฐ๋ฅํ์ง๋ง, ๊ฐ๊ณต๋์ง ์์ ์ถ์ธก์ ์ ์ฒด์ corpus๋ฅผ ๋ค๋ฃฐ ์ ์๋ ๋์ฑ ์งง์ segment๋ก ๋๋๊ณ , ์ด์ segment๋ก๋ถํฐ ์ป์ ๋ชจ๋ ๋ฌธ๋งฅ์ ์ ๋ณด๋ฅผ ๋ฌด์ํ๊ณ , ์ค๋ก์ง ๊ฐ๊ฐ์ segment๋ก๋ง ํ๋ จ์ํค๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ด Al-Rfou์ธ ์ ์๋ค์ด ์์ฑํ ๋ ผ๋ฌธ์์ ์ ์ฉ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ vanilla model๋ก ๋ถ๋ฅด๊ณ ๊ทธ๋ฆผ 1์ a์ฒ๋ผ ์๊ฐํํ์๋ค. ์๋์ ๊ทธ๋ฆผ์ ใ ์ดํด๋ณด๋ฉด segment 1์ ๋ํด ํ์ต์ด ๋๋๋ฉด ์ด์ segment์ ๊ธธ์ด๋งํผ ์ด๋ํ segment 2๋ฅผ ํ์ตํ๋ค. ๋ฐ๋ผ์ ์ด segment์ ๊ธธ์ด๊ฐ ๋ฌธ๋งฅ์ ํ์ ํ ์ ์๋ ์ต๋ ๊ธธ์ด๊ฐ ๋๋ ๊ฒ์ด๊ณ , ์ด๋ segment์ ๊ธธ์ด์ ๋ฐ๋ผ dependency length๊ฐ ํ์ ๋๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๋ค. ๋ํ, ๊ธธ์ด์ ๋ง์ถฐ์ chunking์ด ๋๊ธฐ ๋๋ฌธ์ ๋ง์ฐฌ๊ฐ์ง๋ก context fragmentation์ด ๋ฐ์ํ๊ฒ ๋๋ค.
์ด ํ๋ จ ํจ๋ฌ๋ค์ ๋ด์์ ์ ๋ฐฉํฅ ๋๋ ์ญ๋ฐฉํฅ์ผ๋ก ์ด๋ ํ ์ ๋ณด๋ค์ด ํ๋ฌ๊ฐ์ง ์๋๋ค. ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฌธ๋งฅ์ ์ฌ์ฉํ๋ ๋ฐ์๋ ๋ ๊ฐ์ง ์น๋ช ์ ์ธ ๋ฌธ์ ์ ์ด ์กด์ฌํ๋ค.
- ๊ฐ๋ฅํ ์ต๋ ์ข ์์ฑ ๊ธธ์ด๋ ๋ฌธ์ ์์ค ์ธ์ด ๋ชจ๋ธ๋ง์์ ์๋ฐฑ์ธ ์ธ๊ทธ๋จผํธ ๊ธธ์ด์ ์ํ ์ด๋ค. ๊ทธ๋์, self-attention์ด RNN์ ๋นํด ๋น๊ต์ ๊ธฐ์ธ๊ธฐ ์ฌ๋ผ์ง ํ์์ ์ํฅ์ ๋ ๋ฐ์ง๋ง, vanilla model์ ์ด๋ฌํ ์ต์ ํ์ ์ฅ์ ์ ์ต๋๋ก ํ์ฉํ ์๊ฐ ์๋ค.
- ํจ๋ฉ์ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ์ด๋ ๋ค๋ฅธ ์๋ฏธ๋ก ์ ๊ฒฝ๊ณ๋ฅผ ์กด์คํ ์ ์์ง๋ง ์ค์ ๋ก๋ ํจ์จ์ฑ ํฅ์์ผ๋ก ์ธํด ๊ธด ํ ์คํธ๋ฅผ ๊ณ ์ ๊ธธ์ด ์ธ๊ทธ๋จผํธ๋ก ๊ฐ๋จํ ์ฒญํฌ ํ๋ ๊ฒ์ด ํ์ค ๊ดํ์ด์๋ค. ํ์ง๋ง, ์ํ์ค๋ฅผ ๊ฐ๋จํ๊ฒ ๊ณ ์ ๋ ๊ธธ์ด์ segment๋ก ๋ญ์น๋ ๊ฒ์ context fragmentation ๋ฌธ์ ๋ฅผ ๋ถ๋ฌ์ผ์ผํจ๋ค.
ํ๊ฐ ๊ณผ์ ์ ๊ฐ ๋จ๊ณ์์ vanilla model์ ํ๋ จ์์ ์ฌ์ฉ๋ segment์ ๋๊ฐ์ ๊ธธ์ด์ segment๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋ง์ง๋ง์ ํ๋์ ์์ธก๋ง์ ๋ด๋๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ค์ ๋จ๊ณ์์๋, segment๊ฐ ๋ฑ ํ ์์น๋งํผ ์ค๋ฅธ์ชฝ์ผ๋ก ๋์ด๊ฐ๊ณ , ์๋ก์ด segment๊ฐ ๋ฐ๋ฐ๋ฅ๋ถํฐ ์งํ๋๋ค. ์ด๋ ๊ทธ๋ฆผ 1์ b์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ๊ณผ์ ์ ๊ฐ๊ฐ์ ์์ธก๋ค์ด ํ๋ จ ๋์ค์ ๋ํ๋๋ ์ต๋ ๊ธธ์ด์ ๋ฌธ๋งฅ์ ์ด์ฉํ ์ ์๊ฒ ๋ณด์ฅํ๊ณ , ํ๋ จ ๋์ค์ ๋ง๋๋ context fragmentation ๋ฌธ์ ๋ฅผ ์ํ์ํฌ ์ ์๊ฒ ๋์์ค๋ค. ํ์ง๋ง, ์ด ํ๊ฐ ๊ณผ์ ์ ๋งค์ฐ ๋น์ฉ์ด ๋น์ธ๋ค๋ ๋จ์ ์ด ์๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ architecture๊ฐ ํ๊ฐ์ ์๋๋ฅผ ์ด๋ป๊ฒ ํฅ์ํ๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
2-2. Segment-Level Recurrence with State Reuse
๊ณ ์ ๋ ๊ธธ์ด์ ๋ฌธ๋งฅ์ ์ฌ์ฉํ๋ ๊ฒ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ Transformer architecture์์์ ๋ฐ๋ณต์ ๋ฉ์ปค๋์ฆ์ ์ ์ํ์๋ค. ํ๋ จ ์ค์ ์ด์ segment์ ๋ํด ๊ณ์ฐ๋ ์จ๊ฒจ์ง ์ํ ์ํ์ค๋ ๊ณ ์ ๋๊ณ ๋ชจ๋ธ์ด ๋ค์ ์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ฒ๋ฆฌํ ๋ ํ์ฅ๋ context๋ก ์ฌ์ฌ์ฉํ๊ธฐ ์ํด ์บ์๋๋ค. ์ด๋ ๊ทธ๋ฆผ 2์ a์ ๋ํ๋์๋ค. ๋ค์์ ๊ทธ๋ฆผ์ ์ดํด๋ณด๋ฉด ํ๋ จ ์์ ์ด์ segment๋ฅผ ํตํด ์์ฑ๋ hidden state sequence๋ฅผ ๊ณ ์ (no-gradient)ํ๊ณ caheํด์ ๋จ๊ณ๊ฐ ์งํ๋จ์ ๋ฐ๋ผ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํ์ฅ์ํจ๋ค. ๋น๋ก ํ์ฌ segment์ ๋ํ ๊ธฐ์ธ๊ธฐ๊ฐ ์ด์ segment์ hidden state์ ์ํฅ์ ์ฃผ์ง๋ ์์ง๋ง ๊ณผ๊ฑฐ์ ์ ๋ณด๋ฅผ ๊ณ์ํด์ ์ ์งํจ์ผ๋ก์จ long-term dependency์ context fragmentation์ ํด์ํ ์ ์๋ค.
corpus์ ์ด์ด์ง๋ ๋ชจ๋ ๋ segment์ ๋ํด ๋ฐ๋ณต์ ๋ฉ์ปค๋์ฆ์ด ์ ์ฉ๋๋ฉด, ์ด๊ฒ์ด ๋ณธ์ง์ ์ผ๋ก hidden state์์ segment-level์ ๋ฐ๋ณต์ ์์ฑํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ํ์ฉ๋๋ ํจ๊ณผ์ ์ธ context๋ ๋ ๊ฐ์ segment๋ฅผ ํจ์ฌ ๋ฐ์ด ๋์ ์ ์๋ค. ํ์ง๋ง, $\mathbf{h}_{\tau +1}^{n}$์ $\mathbf{h}_{\tau}^{n-1}$ ์ฌ์ด์ ๋ฐ๋ณต๋๋ ์ข ์์ฑ์ segment๋น ํ ๊ณ์ธต ์๋๋ก ์ด๋ํ๋ฉฐ, ์ด๋ ๊ธฐ์กด์ RNN-LM์ ๋์ผํ ๊ณ์ธต ๋ฐ๋ณต๊ณผ ๋ค๋ฅด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ฐ๋ฅํ ๊ฐ์ฅ ํฐ ์ข ์์ฑ ๊ธธ์ด๋ ๊ทธ๋ฆผ 2์ b์ฒ๋ผ ์์ ์์ญ์ผ๋ก ์๊ฐํ๋ ๊ฒ์ฒ๋ผ ๋ ์ด์ด ์์ ์ธ๊ทธ๋จผํธ ๊ธธ์ด, ์ฆ $O(N \times L)$์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๋ค. ์ด๊ฒ์ RNN-LM์ ํ๋ จ์ํค๊ธฐ ์ํด ๊ฐ๋ฐ๋ ๊ธฐ์ ์ธ truncated BPTT์ ์ ์ฌํ๋ค. ํ์ง๋ง, BPTT์ ๋ค๋ฅด๊ฒ ๋ง์ง๋ง segment์ ์ ๋ณด๋ง ํ์ฉํ๋ ๊ฒ์ด ์๋๋ผ cache๋ ์ด์ ์์ ๋ค์ hidden state๋ฅผ ์ด์ฉํ๊ณ , relative positional encoding ์ ๋ณด๋ ํจ๊ป ์ฌ์ฉํด์ผ ํ๋ค.
๊ฒ๋ค๊ฐ ์ฌ๋ถ์ ๊ธด ๋ฌธ๋งฅ์ ๋ฌ์ฑํ๊ณ fragmentation์ ํด๊ฒฐํ๋ ๊ฒ ์ธ์๋ ๋ฐ๋ณต ์ฒด๊ณ์ ํจ๊ป ์ ๊ณต๋๋ ๋ ๋ค๋ฅธ ์ด์ ์ ํจ์ฌ ๋น ๋ฅธ ํ๊ฐ์ด๋ค. ํนํ, ํ๊ฐ ์ค์๋ vanilla model์์ ํ๋ ๊ฒ์ฒ๋ผ ๋ฐ๋ฐ๋ฅ๋ถํฐ ๊ณ์ฐ๋๋ ๊ฒ ๋์ ์ ์ด์ segment์ representation์ ์ฌ์ฌ์ฉํ ์ ์๋ค.
๋ง์ง๋ง์ผ๋ก, ๋ฐ๋ณต์ ์ธ ์ฒด๊ณ๋ ์ด์ segment์ ๊ตญํ๋ ํ์๋ ์๋ค. ์ด๋ก ์์ผ๋ก๋, GPU๊ฐ ํ๋ฝํ๋ ๋งํผ ๋ง์ ์์ ์ด์ segment๋ค์ ์บ์ํด๋ ์ ์๊ณ , ํ์ฌ segment๋ฅผ ์ฒ๋ฆฌํ ๋, ์ถ๊ฐ์ ์ธ ๋ฌธ๋งฅ์ผ๋ก ์ฌ์ฉํ ์ ์๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๋ฏธ๋ฆฌ ์ ์๋ ๊ธธ์ด-M์ ์ค๋๋ hidden state๋ฅผ ์ฌ๋ฌ ์ธ๊ทธ๋จผํธ์ ๊ฑธ์ณ ์บ์ํ ์ ์๊ณ , ์ด๊ฒ์ ๋ฉ๋ชจ๋ฆฌ $\mathbf{m}_{\tau }^{n}\in \mathbb{R}^{M\times d}$ ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ ผ๋ฌธ์ ์คํ์์๋ $M$์ ํ๋ จ์์์ segment ๊ธธ์ด์ ๊ฐ๊ฒ ๋์๊ณ , ํ๋ จ ์ค์ ์ด๋ฅผ ์ฆ๊ฐ์์ผฐ๋ค.
2-3. Relative Positional Encodings
์์ ๋งํ๋ ์์ด๋์ด๋ค์ด ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ๊ธฐ์ ๋งค์ฐ ๋๋ฆฌ์ง๋ง, ๊ฑฐ๊ธฐ์๋ hidden state๋ฅผ ์ฌ์ฌ์ฉํ๋ ๊ฒ์ ๋ํด ์์ง ํ์ง ๋ชปํ ๊ธฐ์ ์ ๋ฌธ์ ์ ์ด ์๋ค. ๊ทธ๊ฒ์ ๋ฐ๋ก state๋ฅผ ์ฌ์ฌ์ฉํ ๋, ์ด๋ป๊ฒ ์์น์ ์ ๋ณด๋ฅผ ์ผ๊ด์ฑ ์๊ฒ ์ ์งํ๋๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฐ๊ฐ์ด ๋ช ๋ฒ์งธ ์์์์ ๋์จ ์ ๋ณด์ธ์ง๋ฅผ ์ด๋ป๊ฒ ๊ตฌ๋ถ ๋ฐ ํ์ธ ํ ์ ์๋์ง๋ผ๋ ์๋ฌธ์ ๋์ง๋ค. ๊ธฐ๋ณธ์ ์ธ Transformer์์๋, ์ํ์ค ์์์ ๋ํ ์ ๋ณด๊ฐ ์์น์ ์ธ์ฝ๋ฉ ์ธํธ์ธ $\mathbf{U}\in \mathbb{R}^{L_{max}\times d}$์ ์ํด ์ ๊ณต๋๋ค. i๋ฒ์งธ ํ์ ๊ฐ์ธ $\mathbf{U}_{i}$๋ segment ์์ i๋ฒ์งธ์ ์ ๋ ์์น๋ฅผ ๋ํ๋ด๊ณ , $L_{max}$๋ ๋ชจ๋ธ๋งํ ์ ์๋ ์ต๋ ๊ธธ์ด๋ฅผ ๊ท์ ํ๋ค. ์ฌ๊ธฐ์ ์ ๋ ์์น๋ผ๊ณ ํํํ absolute positional encoding์ segment ์์์ ๋ฌด๊ดํ ํน์ ๊ธธ์ด (L)์ segment ๋ด์ ์์ ์ ๋ณด์ด๋ค. ๊ทธ ๋ค์์, ์ค์ Transformer์ ์ ๋ ฅ๊ฐ์ positional encoding๊ณผ word embedding์ ์์๋ณ ๋ง์ ์ด๋ค. ๋ง์ฝ ์ด positional encoding์ ์ด ๋ ผ๋ฌธ์ ๋ฐ๋ณต์ ๋ฉ์ปค๋์ฆ์ ์ ์ฉ์ํค๋ฉด, hidden state sequence๋ ๋ค์๊ณผ ๊ฐ์ด ์ฒด๊ณ์ ์ผ๋ก ๊ณ์ฐ๋๋ค.
$\mathbf{h}_{\tau +1} = f(\mathbf{h}_{\tau }, \mathbf{E}_{\mathbf{s}_{\tau +1}} + \mathbf{U}_{1:L})$
$\mathbf{h}_{\tau } = f(\mathbf{h}_{\tau -1}, \mathbf{E}_{\mathbf{s}_{\tau }} + \mathbf{U}_{1:L})$
์ฌ๊ธฐ์ $\mathbf{E}_{s_{\tau }}\in \mathbb{R}^{L \times d}$๋ $\mathbf{s_{\tau }}$์ word embedding ์ํ์ค์ด๊ณ , $f$๋ ๋ณํ ํจ์๋ฅผ ํํํ๋ค. $\mathbf{E}_{\mathbf{s}_{\tau }}$์ $\mathbf{E}_{\mathbf{s}_{\tau +1}}$๋ ๋ชจ๋ ๊ฐ์ positional encoding์ธ $\mathbf{U}_{1:L}$๊ณผ ๊ด๋ จ๋์ด ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ชจ๋ธ์ ์ด๋ค $j = 1, ..., L$์ ๋ํด $x_{\tau , j}$์ $x_{\tau+1 , j}$๊ฐ ์์น์ ์ผ๋ก ๋ค๋ฆ์ ์ค๋ช ํ ์ ์๋ ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์, ์์ ํ ์ฑ๋ฅ ์์ค์ด ๋ฐ์ํ๊ฒ ๋๋ค. ์ด๋ฅผ ๋ค์ ๋งํ๋ฉด, ๊ธฐ์กด์ Transformer์ ๋ฐ๋ณต์ ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ๋ฉด, ์๋ก ๋ค๋ฅธ segment์ ๋ํด์๋ ๊ฐ์ postional encoding ์ ๋ณด๋ฅผ ํ์ฉํ๊ณ ์์ด segment ๋ณ๋ก positional encoding์ ์ฐจ์ด๊ฐ ์๊ฒ ๋๋ค.
์ด๋ฌํ ๊ฒฐํจ์ ํด๊ฒฐํ๊ธฐ ์ํ ๊ทผ๋ณธ์ ์ธ ์์ด๋์ด๋ ์ค์ง hidden state์ relative positional information์ ์ธ์ฝ๋ํ๋ ๊ฒ์ด๋ค. ๊ฐ๋ ์ ์ผ๋ก, positional encoding์ ๋ชจ๋ธ์๊ฒ ์ด๋ป๊ฒ ์ ๋ณด๋ฅผ ๋ชจ์์ผ ํ๋์ง์ ๊ฐ์ ์ผ์์ ์ธ ๋จ์ ๋๋ 'ํธํฅ'์ ์ค๋ค. ๊ฐ์ ๋ชฉ์ ์ผ๋ก, ํธํฅ์ ์ ์ ์ผ๋ก ์ด๊ธฐ์ ์๋ฒ ๋ฉ์ ํฌํจํ๊ธฐ ๋ณด๋ค๋, ๊ฐ ๊ณ์ธต์ attention score์ ์ฃผ์ ํ ์ ์๋ค. ๋์ฑ ์ค์ํ ๊ฒ์, ์ด๊ฒ์ด ๋์ฑ ์ดํดํ๊ธฐ ์ฝ๊ณ ์ผ๋ฐํํ๊ธฐ ์ฝ๊ฒ ์ผ์์ ์ธ ํธํฅ์ relativeํ๊ฒ ์ ์์์ผ ์ค๋ค. ์๋ฅผ ๋ค์ด, ์ฟผ๋ฆฌ ๋ฒกํฐ $q_{\tau , i}$๊ฐ ํค ๋ฒกํฐ $\mathbf{k}_{\tau ,\leq i}$๋ฅผ ์ฐธ์กฐํ ๋, segment์ ์ผ์์ ์ธ ์์๋ฅผ ํ์ ํ๊ธฐ ์ํด ๊ฐ ํค ๋ฒกํฐ์ ์ ๋์ ์ธ position์ ์ ํ์๋ ์๋ค. ๋์ ์, $q_{\tau , i}$์ ๊ฐ ํค ๋ฒกํฐ $\mathbf{k}_{\tau ,\leq i}$์ relative distance๋ฅผ ์๊ธฐ์๋ ์ถฉ๋ถํ๋ค. ์๋ฅผ ๋ค์ด, $i-j$. ์ค์ง์ ์ผ๋ก, relative positional encoding ์ธํธ์ธ $\mathbf{R}\in \mathbb{R}^{L_{max} \times d}$๋ฅผ ๋ง๋ค ์ ์๋ค. ์ฌ๊ธฐ์ i๋ฒ์งธ ํ์ ๊ฐ์ธ $\mathbf{R}_{i}$๋ ๋ ํฌ์ง์ ์ฌ์ด์ ์๋์ ๊ฑฐ๋ฆฌ์ธ i์ ์๋ฏธํ๋ค. attention score์ ๋์ ์ผ๋ก ์๋์ ๊ฑฐ๋ฆฌ๋ฅผ ์ฃผ์ ํ๋ฉด, ์ฟผ๋ฆฌ ๋ฒกํฐ๋ $x_{\tau ,j}$์ $x_{\tau +1,j}$์ representation์ ์๋ก ๋ค๋ฅธ ๊ฑฐ๋ฆฌ์์ ์ฝ๊ฒ ๊ตฌ๋ณํ ์ ์์ผ๋ฏ๋ก state๋ฅผ ์ฌ์ฌ์ฉํ๋ ๋ฉ์ปค๋์ฆ์ ์คํ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค ์ ์๋ค. ํํธ, ์๋ ๊ฑฐ๋ฆฌ์์ ์ฌ๊ท์ ์ผ๋ก ์ ๋ ์์น๋ฅผ ๋ณต๊ตฌํ ์ ์์ผ๋ฏ๋ก ์๊ฐ ์ ๋ณด๋ฅผ ์์ง ์๋๋ค.
์ด์ ์๋ ์๋์ positional encoding์ ์์ด๋์ด๊ฐ machine translation๊ณผ ์์ ์์ฑ ๋ถ์ผ์์ ์ฃผ๋ก ์ฌ์ฉ๋์๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ์๋ ์์น ๋ถํธํ์ ์๋ก์ด ํํ์ ๋๋ฌํ๊ฒ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ ๋ ์๋์ ์ผ๋์ผ๋ก ๋์ํ ๋ฟ๋ง ์๋๋ผ ๊ฒฝํ์ ์ผ๋ก ํจ์ฌ ๋ ๋์ ์ผ๋ฐํ๋ฅผ ์ฆ๊ธฐ๋ ๋ฐฉ๋ฒ์ ๋ง์ด๋ค.
์ฒซ ๋ฒ์งธ๋ก, ๊ธฐ์กด์ Transformer์์๋ ๋์ผํ segment ๋ด์์ ์ฟผ๋ฆฌ $q_{i}$์ ํค ๋ฒกํฐ $k_{j}$ ์ฌ์ด์ attention score๋ ๋ค์๊ณผ ๊ฐ์ด ๋ถํด๋ ์ ์๋ค.
์์ ์์ ํด์ํด๋ณด๋ฉด word embedding ๋ฒกํฐ์ positional encoding์ ๋ํ ํ ์ฟผ๋ฆฌ์ ํค ๋ฒกํฐ๋ฅผ ๊ตฌํ๋ ๊ฒ์ด๋ค. ๋ชจ๋ ์ข ํฉํ์ ๋ ๋ค์๊ณผ ๊ฐ์ ์ ๋ค์ด ํ์ํ๋ค๊ณ ํ ์ ์๋ค.
- segment๋ฅผ ๊ตฌ๋ถํ ์ ์๋ position ์ ๋ณด๊ฐ ํ์
- ๋์ผ segment ๋ด์์ $x_{\tau ,i}$์ $x_{\tau ,j}$์ ์์น ์ฐจ์ด์ธ $x_{\tau ,j}$์ ๋ํ ์ ๋ณด๋ ๊ฐ์ด ๋ฐ์ํ ์ ์์ด์ผ ํ๋ค. ์ฆ, ํด๋น ํ ํฐ์ด ํน์ ์์น์ ์๋ค๋ ์ ๋ณด๋ณด๋ค ์ฟผ๋ฆฌ์ ํค๊ฐ ๋๋ ํ ํฐ๋ค์ด $i-j$๋งํผ ์์น์ ์ฐจ์ด๊ฐ ์๋ค ๋ผ๋ ์๋์ ์ธ ์์น ์ ๋ณด๊ฐ ํ์ํ๋ค.
์์ ์์์ ์ค๋ก์ง ์๋์ ์์น ์ ๋ณด์๋ง ์์กดํ๋ค๋ฉด, ๋ค์๊ณผ ๊ฐ์ด 4๊ฐ์ ๊ฐ์ ์ฌ paramerize ํ ์ ์๋ค. ์ด๋ ๊ธฐ์กด์ ๋ฐฉ์์ฒ๋ผ ์ ๋ ฅ์๋ง positional encoding ์ ๋ณด๋ฅผ ์ฃผ์ ํ๋ ๊ฒ์ด ์๋ attention score์ ์ฃผ์ ํ๋ค.
์์ 1์์ ์์ 2๋ก ๋ณํ๋ ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ฒซ ๋ฒ์งธ ๋ณํ๋ ์์ 1์ (b)์ (c)์ ํค ๋ฒกํฐ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํ ์ ๋์ ์์น ์๋ฒ ๋ฉ $\mathbf{U}_{j}$์ ๋ชจ๋ ๋ชจ์์ ์๋์ ๋ชจ์ $\mathbf{R}_{i-j}$๋ก ๋์ฒดํ๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ ๋ณธ์ง์ ์ผ๋ก ์๋์ ์ธ ๊ฑฐ๋ฆฌ๋ง์ด ์ด๋์ ์ฐธ์ํด์ผ ํ๋์ง์ ๋ํ ์ฐ์ ์์๋ฅผ ๋ฐ์ํ๋ค. $\mathbf{R}$์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ์ฌ์ธ ๊ณก์ ์ ์ธ์ฝ๋ฉ ํ๋ ฌ์ด๋ค.
- ๋ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ $u \in \mathbb{R}^{d}$๋ฅผ ์๊ฐํ๋ฉด์ ์ ์์ 1์ (c)์ ์ฟผ๋ฆฌ $\mathbf{U}_{i}^{\top }\mathbf{W}_{q}^{\top }$๋ฅผ ์ด ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ก ๊ต์ฒดํ์๋ค. ์ด ๊ฒฝ์ฐ์๋, ์ฟผ๋ฆฌ ๋ฒกํฐ๊ฐ ๋ชจ๋ ์ฟผ๋ฆฌ ์์น์ ๋ํด ๋์ผํ๋ฏ๋ก, ๋ค๋ฅธ ๋จ์ด์ ๋ํ attentiveํ ํธํฅ์ ์ฟผ๋ฆฌ ์์น์ ๊ด๊ณ์์ด ๋์ผํ๊ฒ ์ ์ง๋์ด์ผ ํจ์ ๋ณด์ฌ์ค๋ค. ์ด์ ๋น์ทํ ์ด์ ๋ก, ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ธ $v \in \mathbb{R}^{d}$๊ฐ ์์ 1์์ (d)์ $\mathbf{U}_{i}^{\top }\mathbf{W}_{q}^{\top }$ ๋์ ์ ์ถ๊ฐ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์ปจํ ์ธ ๊ธฐ๋ฐ์ ํค ๋ฒกํฐ์ ์์น ๊ธฐ๋ฐ์ ํค ๋ฒกํฐ ๊ฐ๊ฐ์ ์์ฑํ๊ธฐ ์ํด ์๋์ ์ผ๋ก ๋ ๊ฐ์ ๊ฐ์ค์น ํ๋ ฌ $\mathbf{W}_{k, E}$์ $\mathbf{W}_{k, R}$๋ก ๋ถ๋ฆฌํ์๋ค.
์๋ก์ด parameterization์์, ๊ฐ ๊ฐ๋ค์ ๋ค์๊ณผ ๊ฐ์ ์ง๊ด์ ์ธ ๊ฐ์ ๊ฐ์ง๋ค.
- term (a) content-based addressing: positional encoding ์์ด ๊ตฌํ ์ฟผ๋ฆฌ์ ํค์ ์ฐ์ ๊ฒฐ๊ณผ
- term (b) content dependent positional bias: $Q_{i}$์ ํค ํ ํฐ๊ณผ์ ์๋์ ๊ฑฐ๋ฆฌ ์ ๋ณด๋ฅผ ๋ฐ์, $R$์ ๊ธฐ์กด Transformer์์ ์ฌ์ฉํ Sin/Cos์ ์ด์ฉํ positional encoding matrix
- term (c) global content bias: ํค ๊ฐ์ ๋ํ ์ค์๋ ์ ๋ณด๋ฅผ ๋ฐ์, ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ $u$๋ฅผ ์ด์ฉ, ๋ชจ๋ ์์น์์ ์ฟผ๋ฆฌ ๋ฒกํฐ์ ๋์ผํด์ผ ํจ
- term (d) global positional bias encode: ์ฟผ๋ฆฌ์ ํค ํ ํฐ ๊ฐ์ ์๋์ ๊ฑฐ๋ฆฌ์ ๋ํ ์ค์๋๋ฅผ ๋ฐ์, ๋ง์ฐฌ๊ฐ์ง๋ก $v$ ํ์ฉ
Shaw ์ธ ์ ์๋ค๊ณผ ํจ๊ป ์์ฑํ ๋ ผ๋ฌธ๊ณผ ์ด ๋ ผ๋ฌธ์ ์ฐจ์ด์ ์ Shaw ์ธ ์ ์๋ค์ด ์ด ๋ ผ๋ฌธ์ ์์์๋ ๋ ํธํฅ ๊ฐ (c)์ (d) ์์ด, ์ค์ง (a)์ (b)๋ง์ ๊ฐ์ง๊ณ ์๋ค. ๊ฒ๋ค๊ฐ ์ด Shaw ์ธ ์ ์๋ค์ ๊ณฑ์ $\mathbf{W}_{k}\mathbf{R}$์ ํ๋ จ ๊ฐ๋ฅํ ๋จ์ผ ํ๋ ฌ $\hat{R}$๋ก ๋ณํฉํ์ฌ ์๋ ์ ํํ ์์น ์ธ์ฝ๋ฉ์ ๋ด์ฅ๋ ์ ๋ ํธํฅ์ ๋ฒ๋ฆฐ๋ค. ์ด์๋ ๋ฐ๋๋ก, ์ด ๋ ผ๋ฌธ์ ์๋์ ์์น ์๋ฒ ๋ฉ $\mathbf{R}$๋ ์ ํํ ํจ์๋ฅผ ์ ์ฉ์ํจ๋ค. inductive ํธํฅ์ ์ด์ ์ผ๋ก ํน์ ๊ธธ์ด์ ๋ฉ๋ชจ๋ฆฌ์์ ํ๋ จ๋ ๋ชจ๋ธ์ ํ๊ฐ ์ค์ ๋ช ๋ฐฐ ๋ ๊ธด ๋ฉ๋ชจ๋ฆฌ๋ก ์๋ ์ผ๋ฐํํ ์ ์๋ค.
์ด ๋ ผ๋ฌธ์์ ์ ์ํ ์๋์ ์์น ์๋ฒ ๋ฉ์ ๋ฐ๋ณต์ ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ๋ฉด, Transformer-XL architecture๊ฐ ๋์ค๊ฒ ๋๋ค. ์์ ์ฑ์ ์ํด์, ๋ ผ๋ฌธ์์๋ N-layer Transformer-XL์ ์ํ ๊ณ์ฐ ๊ณผ์ ์ ํ๋์ attention head๋ก ์์ฝํ์๋ค.
์ฌ๊ธฐ์ $\mathbf{h}_{\tau }^{0} \doteq \mathbf{E}_{s_{\tau }}$๋ ์๋ ์๋ฒ ๋ฉ ์ํ์ค๋ก ์ ์๋๋ค. ๋ํ A๋ฅผ ๊ณ์ฐํ๋ ์์ํ ๋ฐฉ๋ฒ์ ๋น์ฉ์ด ์ํ์ค ๊ธธ์ด์ 2์ฐจ์ธ ๋ชจ๋ ์(i, j)์ ๋ํด $\textbf{W}_{k, R}^{n}\textbf{R}_{i-j}$์ ๊ณ์ฐํด์ผ ํ๋ค๋ ์ ์ ์ธ๊ธํ ๊ฐ์น๊ฐ ์๋ค. ํ์ง๋ง, $i-j$์ ๊ฐ์ ์ค์ง 0๋ถํฐ ์ํ์ค ๊ธธ์ด ์ฌ์ด์๋ง ์กด์ฌํ๋ค.
3. Ablation Study
Recurrence mechanism๊ณผ positional encoding ๋ฐฉ๋ฒ์ ๋ฐ๋ฅธ ์ฐจ์ด
Transformer์ ๋ํด recurrence mechanism๊ณผ positional encoding์ ์ ์ฉ์์ผ๋ณด๊ณ ๊ทธ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๋น๊ตํด๋ณธ ๊ฒฐ๊ณผ, recurrence mechanism๊ณผ positional encoding์ ์ ์ฉ์ํจ ๋ชจ๋ธ์ด ๋์ฑ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ค์์ด ์ด ์คํ์ ํตํด ์ป์ ๊ฒฐ๊ณผ์ด๋ค.
- Absolute positional encoding์ Half Loss์ ์ ๋ง์ --> ์งง์ attention length๋ก ์ธํด ๋ค๋ฅธ position๋ค์ ์ ์ธํ๊ธฐ ๋๋ฌธ
- ์ญ์ ํ์ ๊ธธ์ด๊ฐ ํ์ต ์์๋ 128์ด์ง๋ง, test ์์๋ 640์ผ๋ก ์ฆ๊ฐ
- recurrence์ relative encoding์ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก ์ฑ๋ฅ ๊ฐ์ ๊ฐ๋ฅ
Longer context์ ํ์ ์ ํตํ context fragmentation ํด์ ํจ๊ณผ
์ด ์คํ์ recurrence๊ฐ context fragmentation์ ํจ๊ณผ์ ์์ ์ ์ฆํ๋ ์คํ์ด๋ค.
- 20 Layer Transformer-XL, 400K ํ์ต
- Positional encoding ๋ฐฉ์๊ณผ ์๊ด์์ด recurrence mecahnism์ ํตํด context fragmentation์ ํด๊ฒฐํ ์ ์์์ ํ์ธ
- relative positional encoding > absolute positional encoding
Relative Effective Context Length
Transformer-XL์ด ์ฒ๋ฆฌ ๊ฐ๋ฅํ ์ต์ ์ context length๊ฐ ์ด๋ป๊ฒ ๋๋์ง ์ง์ ์ ์ผ๋ก ์ดํด๋ณด๊ธฐ ์ํ ์งํ๊ฐ Effective Context Length์ด๋ค. ์ด Effective Context Length๋ ์ค์ฌ์ ECL์ด๋ model ์ฑ๋ฅ์ ๊ฐ์ ์ด ํน์ ๊ธฐ์ค๋ณด๋ค ํด ๋ ๊ฐ์ฅ ๊ธด context์ ๊ธธ์ด ์ด๋ค. ํ์ง๋ง, ์๋์ ์ผ๋ก ์งง์ ๊ธ์ ๋ํด์๋ ์ ํํ ECL์ ์ธก์ ์ด ์ ์ ํ์ง ์๋ค๋ ๋จ์ ์ด ์๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ์๋ก์ด ํ๊ฐ์งํ์ธ Relative Effective Context Length ์ฆ, RECL์ ์ ์ํ์๋ค.
ECL์ ๋จ์ผ ๋ชจ๋ธ ํ๋์ ๋ํ ํ๊ฐ์งํ์ด์ง๋ง, ์ด RECL์ ์ฌ๋ฌ ๋ชจ๋ธ์ ๋์์ ๋น๊ตํ๋ ์งํ์ด๋ค. ์ด RECL์ ๋ชฉํ๋ context length $c$๋ก๋ short-term dependency๋ฅผ ์ ํ์ ํ์ง ๋ชปํด์ loss๊ฐ ๋์ ์ผ๋ถ position์ ๋ํด์ ์ดํด๋ณด๊ฒ ๋ค๋ ์๋ฏธ์ด๋ค.
RECL์ ๋ํ ๋ ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ Appendix C์์ ํ์ธ ๊ฐ๋ฅํ๋ค. ๋ณธ ํฌ์คํธ์์๋ ์ด ๋ด์ฉ์ ๋ค๋ฃจ์ง ์๊ฒ ๋ค.
Generated Text
Wikitext-103 ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ๋ก ์ํ text๋ฅผ ์์ฑํ์๋ค. Text Generation์ ์ค์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Input: Wikitext-103์์ ๋ฌด์์๋ก ์ถ์ถ๋ ์ต๋ 512๊ฐ์ ์ฐ์๋ ํ ํฐ๋ค
- ์ฌ์ ์ ์ง์ ๋ ํ ํฐ ์๋งํผ text๋ฅผ ์์ฑํ๋๋ก ํจ
- Output (1 token): Sample from top-40 tokens with renormalized probability distribution
์ด๋ฅผ ํตํด ์์ฑ๋ ์ค์ ์์ฑ๋ฌธ์ ๋ ผ๋ฌธ์ Appendix E๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
Evaluation Speed
vanilla Transformer model๊ณผ ๋น๊ตํ์ ๋, attention length๊ฐ ๊ธธ์ด์ง์๋ก ์๋ ์ฐจ์ด๊ฐ ํ์ฐํ๊ฒ ๋๋ฌ๋ฌ๋ค.
4. Conclusion
segment ๊ฐ ์ ๋ณด ๊ต๋ฅ์ ๋ถ์ฌ ๋ฌธ์ ์ธ context fragmentation์ ์ง์ ํ๋ฉฐ recurrence mechanism๊ณผ relative positional encoding ๋ฐฉ๋ฒ์ ์๋ก์ด ์ ์ฉํ Langauge Model์ด๋ผ๊ณ ํ ์ ์๋ค. ์ด๋ฃจ์ ๋์ผํ ์ ์๋ค์ด ํ์ ์ฐ๊ตฌ์ธ XLNet์ ๋ฐํํ์๋ค.
์ฐธ๊ณ
https://www.youtube.com/watch?v=Xz1T3VmVzGM
https://arxiv.org/abs/1901.02860