What improvements have been made in this paper?
XLNet ๋ ผ๋ฌธ์ ์ด์ ์ ๋ชจ๋ธ์ธ Transformer-XL์ ์๊ฐํ ์ฐ๊ตฌ์ง๋ค์ด ํ์์ผ๋ก ์งํํด์ ๋ฐํํ ๋ ผ๋ฌธ์ผ๋ก, Transformer-XL์ ๊ฐ์ ์ํค๊ณ , BERT์ MLM์ผ๋ก๋ถํฐ ๋ฐ์ํ๋ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ ๋ชจ๋ธ์ธ XLNet์ ์๊ฐํ์๋ค. ์ด XLNet์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค. ์ด XLNet์ ๋น์์ SOTA์๋ Transformer-XL์ ์์ด๋์ด๋ฅผ ํตํฉํ์ฌ ์ฌ์ ํ๋ จ์ ์งํํ์๋ค.
- XLNet์ factorization order์ ๋ชจ๋ ์์ด์ ๋ํด ์์ ๊ฐ๋ฅ์ฑ์ ์ต๋ํํ์ฌ ์๋ฐฉํฅ์ผ๋ก ๋ฌธ๋งฅ์ ํ์ตํ ์ ์๊ฒ ํ์๋ค.
- auto regressive formulation ๋๋ถ์ BERT์ ์ ์ฝ์ ๊ทน๋ณตํ ์ ์์๋ค.
์์ ๊ฐ์ ํน์ง์ ๊ฐ์ง๊ณ ์๋ XLNet์ ๋๋ถ๋ถ์ task์์ BERT๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
1-1. AR language modeling
1-2. AE language modeling
1-3. XLNet
2. Propsed Method
2-1. Background
2-2. Objective: Premutation Language Modeling
2-3. Architecture: Two-Stream Self-Attention for Target-Aware Representations
2-4. Incorporating Ideas from Transformer XL
2-5. Modeling Multiple Segments
2-6. Discussions
1. Introduction
๋น์ง๋์ representation ํ์ต์ NLP ๋ถ์ผ์์ ๋งค์ฐ ์ฑ๊ณตํ ๋ถ์ผ์๋ค. ๋๊ฒ, ์ด ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ฐฉ๋ํ ์์ ๋ผ๋ฒจ๋ง์ด ๋์ด ์์ง ์์ text corpus์ ๋ํด ์ ๊ฒฝ๋ง์ ์ด์ฉํ์ฌ ์ฌ์ ํ๋ จ๋๊ณ , ๋ชจ๋ธ๊ณผ representation์ finetune ํ์ฌ downstream task์ ์ ์ฉํ์๋ค. ์ด ๊ณต์ ๋ high-level์ ์์ด๋์ด์ ๋ฐ๋ผ ๋ค์ํ ๋น์ง๋ ์ฌ์ ๊ต์ก ๋ชฉํ๊ฐ ๋ฌธํ์์ ํ์๋์๋ค. ๊ทธ ์ค์์, autoregressive = AR ๋ชจ๋ธ๋ง๊ณผ autoencoding = AE ๋ชจ๋ธ๋ง์ด ๊ฐ์ฅ ์ฑ๊ณตํ ์ฌ์ ํ๋ จ ๋ฐฉ๋ฒ์ด๋ค.
1-1. AR language modeling
AR language modeling์ autoregressive model์ ์ฌ์ฉํ์ฌ text corpus์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ธก์ ํ๋ค. ์ด๋ฅผ ๋ค์ ๋งํ๋ฉด, previous token์ด ์ฃผ์ด์ก์ ๋, sentence์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ค๋ ๊ฒ์ด๋ค. AR์ ํ๋ฅ ์ ์ด์ ๋จ์ด๋ค์ด ๋์์ ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ค๋ก ์ธ์๋ถํดํ ์ ์๋ค. ํนํ, text sequence $\mathbf{x} = (x_{1}, ..., x_{T})$๊ฐ ์ฃผ์ด์ง๋ฉด, AR language modeling์ ๊ฐ๋ฅ๋๋ฅผ ์ ๋ฐฉ ๊ณฑ $p(x) = \prod_{t=1}^{T}p(x_{t}|\mathbf{x}_{<t})$ ๋๋ ํ๋ฐฉ ๊ณฑ $p(x) = \prod_{t=T}^{1}p(x_{t}|\mathbf{x}_{>t})$์ผ๋ก ๋ถํดํ๋ค. ์ ๊ฒฝ๋ง๊ณผ ๊ฐ์ ๋งค๊ฐ ๋ณ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋๋ก ํ์ต๋๋ค. ๊ทธ๋์ AR model์ ์ค์ง ์ ๋ฐฉํฅ ๋๋ ์ญ๋ฐฉํฅ๊ณผ ๊ฐ์ ๋จ๋ฐฉํฅ์ผ๋ก๋ง ํ์ต๋๊ธฐ ๋๋ฌธ์, deepํ ์๋ฐฉํฅ ๋ฌธ๋งฅ์ ๊ดํด ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๊ทธ๋ฆฌ ํจ๊ณผ์ ์ด์ง ์๋ค. ์ด์๋ ๋ฐ๋๋ก, downstream language understanding tasks๋ ์ฃผ๋ก ์๋ฐฉํฅ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์๊ตฌํ๋ค. ๊ทธ๋์ AR language modeling๊ณผ ํจ๊ณผ์ ์ธ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ ์ฌ์ด์๋ gap์ด ์๊ธธ ์๋ฐ์ ์๋ค.
๋ํ์ ์ผ๋ก AR language modeling์๋ ELMo์ GPT๊ฐ ์กด์ฌํ๋๋ฐ, ์ฌ๊ธฐ์ GPT๋ ๋จ๋ฐฉํฅ์ ์ ๋ณด๋ง ์ด์ฉํ๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค. ELMo ๊ฐ์ ๊ฒฝ์ฐ์๋ ์๋ฐฉํฅ์ ์ด์ฉํ๊ธฐ๋ ํ์ง๋ง, ๊ฐ๊ฐ์ ๋ฐฉํฅ์ผ๋ก ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ ๊ฒ์ ๋จ์ํ concatenateํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์์ ์ดํด๋ง ๊ฐ๋ฅํ๋ค.
1-2. AE language modeling
์์ AR language modeling๊ณผ ๋น๊ตํ๋ฉด, AE ๊ธฐ๋ฐ์ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ ๋ช ํํ density estimation์ ์ํํ์ง๋ ์์ง๋ง, ์์์ด ๋์ด ์๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์กด์ ๋ฐ์ดํฐ๋ก ์ฌ๊ฑด์ถํ๋ ๊ฒ์ ์ด์ ์ ๋์๋ค. ์ด์ ๋ํ์ ์ธ ์๊ฐ ๋น์์ SOTA๋ฅผ ์ฐจ์งํ๊ณ ์๋ BERT์ด๋ค. ์ ๋ ฅ ์ํ์ค๊ฐ ์ฃผ์ด์ง๋ฉด, ํน์ ๋ถ๋ถ์ ํ ํฐ๋ค์ ํน๋ณํ ์ฌ๋ณผ์ธ [MASK]๋ก ๋์ฒด๋๊ณ , ๋ชจ๋ธ์ [MASK]๋ก ์ธํด ์์๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์กด์ ๋ฐ์ดํฐ๋ก ๋ณต๊ตฌํ๊ธฐ ์ํด ํ์ต๋๋ค. ๊ทธ๋์ density estimation์ BERT์ ๋ชฉํ๊ฐ ์๋๋ค.
๊ทธ๋ฆฌ๊ณ BERT๋ ์๋ฐฉํฅ์ฑ ๋ฌธ๋งฅ์ ์ฌ๊ตฌ์กฐํ์ ์ฌ์ฉํ๋ค. ์ด๊ฒ์ ์ฆ๊ฐ์ ์ธ ์ฅ์ ์, AR language modeling์ ์กด์ฌํ๋ ์๋ฐฉํฅ์ฑ์ ์ ๋ณด gap์ ๋ฌธ์ ๋ฅผ ์ฒ ํํ๋ค. ํ์ง๋ง, BERT์ ํ๋ จ์ ์ฌ์ฉ๋๋ ์ธ๊ณต์ ์ธ ์ฌ๋ณผ์ธ [MASK]๋ finetuning์ ํ๋ ์์ ์ ์ค์ ๋ฐ์ดํฐ์์๋ ์กด์ฌํ์ง ์์์, ์ฌ์ ํ๋ จ๊ณผ finetuning ์ฌ์ด์ ๋ถ์ผ์น๊ฐ ์กด์ฌํ๊ฒ ๋๋ค. ๊ฒ๋ค๊ฐ, ์์ธก๋ ํ ํฐ๋ค์ ์ ๋ ฅ์์ ๋ง์คํน๋์ด ์๊ธฐ ๋๋ฌธ์, BERT๋ AR language modeling์์ ํ๋ ๊ฒ์ฒ๋ผ ๊ฒฐํฉ ํ๋ฅ ์ ๋ชจ๋ธ๋งํ ์ ์๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, BERT๋ ๋ง์คํน์ด ๋์ด ์์ง ์๋ ํ ํฐ์ด ์ฃผ์ด์ง๊ฒ ๋๋ฉด, ์์ธก๋ ํ ํฐ์ด ์๋ก ๋ ๋ฆฝ์ ์ด๋ผ๊ณ ๊ฐ์ ํ๋ค. ์ด๋ ์์ฐ์ด์์ ๊ณ ์ฐจ์์ ์ฅ๊ฑฐ๋ฆฌ ์ข ์์ฑ์ด ๋ง์ฐํ๊ธฐ ๋๋ฌธ์ ์ง๋์น๊ฒ ๋จ์ํ๋๋ค.
1-3. XLNet
ํ์กดํ๋ language pretraining ๋ฐฉ๋ฒ๋ค์ ์ฅ์ ๊ณผ ๋จ์ ์ ์ดํด๋ณด๋ฉด์, ์ด ๋ ผ๋ฌธ์์๋ XLNet์ ์๊ฐํ์๋ค. ์ด๊ฒ์ ์ผ๋ฐํ๋ AR ๋ฐฉ๋ฒ์ผ๋ก ์ต๊ณ ์ AR language modeling๊ณผ AE language modeling์ leverage ํ๋ฉด์ ์ด๋ค์ ์ ์ฝ์ ํผํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- ์ฒซ ๋ฒ์งธ๋ก, ์ ํต์ ์ธ AR model์ฒ๋ผ, ๊ณ ์ ๋ ์ ๋ฐฉํฅ ๋๋ ์ญ๋ฐฉํฅ ๋ถํด ์์๋ฅผ ์ฌ์ฉํ๊ธฐ ๋ณด๋ค๋sequence์ ์์๋ log ๊ฐ๋ฅ๋๋ฅผ ๋ถํด ์์์ ๋ชจ๋ ๊ฐ๋ฅํ ์์ด์ ๊ดํ์ฌ ๊ทน๋ํํ์๋ค. ์์ด operation ๋๋ถ์, ๊ฐ ์์น์ ๋ฌธ๋งฅ์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ๋ชจ๋์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์์๋ค. ์์์ผ๋ก๋, ๊ฐ ์์น๋ค์ ๋ชจ๋ ์์น๋ก๋ถํฐ ์ป์ ๋ฌธ๋งฅ์ ์ ๋ณด๋ฅผ ์ด์ฉํ๊ธฐ ์ํด ํ๋ จ๋๋ค.
- ๋ ๋ฒ์งธ๋ก, ์ผ๋ฐํ๋ AR language model์ธ XLNet์ ๋ฐ์ดํฐ ์์์ ์์กดํ์ง ์๋๋ค. ๋ฐ๋ผ์, XLNet์ BERT๊ฐ ๊ฒช๋ pretraining-finetuning ๊ฐ์ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์๋๋ค. ๊ทธ ์ฌ์ด์, AR ๋ฐฉ๋ฒ๋ค์ BERT์์ ์งํ๋๋ ๋ ๋ฆฝ์ ์ถ์ ์ด ์ ๊ฑฐ๋, ์์ธก๋ ํ ํฐ๋ค์ ๊ฒฐํฉ ํ๋ฅ ์ ๋ถํดํ๊ธฐ ์ํ product rule์ ์ฌ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ ๋ํ ์ ๊ณตํ๋ค.
์ถ๊ฐ์ ์ผ๋ก, ์๋ก์ด pretraining ๋ฐฉ๋ฒ์ผ๋ก, XLNet์ pretraining์ ์ํ ๊ตฌ์กฐ์ ๋์์ธ์ ๊ฐ์ ์์ผฐ๋ค.
- AR language modeling์์์ ์ต๊ทผ์ ๊ฐ์ ์ ์์ ์๊ฐ์ ๋ฐ์, XLNet์ Transformer-XL์ segment recurrence ๋ฉ์ปค๋์ฆ๊ณผ relative positional encoding์ pretraining์ ํตํฉํ์๋ค. ์ต๊ฒ์ ๊ธด text sequence์ task์ ๋ํด์ ํนํ ๋ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- ์์ํ๊ฒ Transformer-XL architecture์ ์์ด ๊ธฐ๋ฐ์ language modeling์ ์ ์ฉํ๋ ๊ฒ์ ์๋ํ์ง ์๋๋ค. ์๋ํ๋ฉด ๋ถํด ์์๋ ์์์ ์ด๊ณ , ํ๊ฒ์ ๋ชจํธํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด์ ๋ํ ํด๋ฒ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ๋ชจํธ์ฑ์ ์์ ๊ธฐ ์ํด Transformer-XL network๋ฅผ reparameterize ํ์๋ค.
์คํ์์๋, ๋น์ทํ ์คํ์ ์ธํ ์์ XLNet์ ๋์ ๋ฒ์์์ BERT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
2. Proposed Method
2-1. Background
์ด ์น์ ์์, ๋ ผ๋ฌธ์์๋ ์ ํต์ ์ธ AR language modeling๊ณผ BERT์ language pretraining์ ๋ฆฌ๋ทฐํ๊ณ ๋น๊ตํ์๋ค. text sequence $\mathbf{x} = [x_{1}, \cdot \cdot \cdot , x_{T}]$๊ฐ ์ฃผ์ด์ง๋ฉด, AR language modeling์ ์ ๋ฐฉํฅ autoregressive factorization์ ํตํด ๊ฐ๋ฅ๋๋ฅผ ์ต๋ํ์ํค๋ฉด์ pretraining์ ์ํํ๋ค. ์๋์ ์์์ด ์ด๋ฅผ ๋ํ๋ธ๋ค.
$\underset{\Theta }{max} log p_{\Theta}(x_{t}|\mathbf{x}_{<t}) = \sum_{t=1}^{T}log\frac{exp(h_{\Theta}(\mathbf{x}_{1:t-1})^{\top }e(x_{t}))}{\sum_{x^{'}}exp(h_{\Theta}(\mathbf{x}_{1:t-1})^{\top })e(x^{'})^{}}$
์์ 1. AR language modeling forward autoregressive factorization
์์ ์์์์ $h_{\Theta }(\mathbf{x}_{1:t-1})$๋ Transformer ๋๋ RNN๊ณผ ๊ฐ์ ์ ๊ฒฝ๋ง์ ํตํด ์์ฑ๋ context representation์ด๊ณ , $e(x)$๋ $x$์ ์๋ฒ ๋ฉ์ ๊ฐ๋ฆฌํจ๋ค. BERT์ ๋น๊ตํ๋ฉด, BERT๋ denoising AE์ ๊ธฐ๋ฐํ๊ณ ์๋ค. ํนํ, text seqeunce $\mathbf{x}$์ ๋ํด, BERT๋ ์ฒ์์ ์์๋ ๋ฒ์ ์ธ $\mathbf{\hat{x}}$์ ๋๋คํ ๋น์จ๋ก ์์ฑํ๋ค. ์ฌ๊ธฐ์ ๋ง์คํน๋ ํ ํฐ์ $\bar{\mathbf{x}}$์ด๋ค. ์ด์ ๋ฐ๋ผ training ๋ฐฉ๋ฒ์ $\mathbf{\hat{x}}$์์ $\bar{\mathbf{x}}$๋ก ์ฌ๊ฑด์ถ๋๋ค.
์ ์์์์ $m_{t} = 1$์ $x_{t}$๊ฐ ๋ง์คํน ๋์๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํค๊ณ , $H_{\Theta }$๋ ๊ธธ์ด๊ฐ T์ธ text sequence $\mathbf{x}$๋ฅผ ํ๋ ๋ฒกํฐ $H_{\Theta }(\mathbf{x})=[H_{\Theta }(\mathbf{x})_{1},H_{\Theta }(\mathbf{x})_{2},\cdot \cdot \cdot ,H_{\Theta }(\mathbf{x})_{T}]$์ ๋งคํํ Transformer์ด๋ค. ๋ ๊ฐ์ pretraining ๋ฐฉ๋ฒ์ ์ฅ์ ๊ณผ ๋จ์ ์ ๋ค์๊ณผ ๊ฐ์ ์ธก๋ฉด์์ ๋น๊ต๊ฐ ๋๋ค.
- Independence Assumption: ์์ ์์ 2์์ $\approx$์ ์ํด ๊ฐ์กฐ๋๋ ๊ฒ์ฒ๋ผ, BERT๋ ๋ชจ๋ MASK ํ ํฐ๋ค์ธ $\bar{\mathbf{x}}$์ด ๋ฐ๋ก๋ฐ๋ก ์ฌ๊ฑด์ถ๋์๋ค๋ ๋ ๋ฆฝ์ ์ถ์ ์ ๊ธฐ๋ฐ์ ๋ ๊ฒฐํฉ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ธ $p(\bar{x}|\hat{x})$๋ฅผ ๋ถํดํ๋ค. ์์ ์์ 1์ AR language modeling๊ณผ ๋น๊ตํ๋ฉด, AR language modeling์ $p_{\Theta }(x)$์ ๋ ๋ฆฝ์ฑ ๊ฐ์ ์์ด ๋ณดํธ์ ์ผ๋ก ์ ์ง๋๋ product rule์ ์ฌ์ฉํด์ ๋ถํดํ๋ค. ํ ๋ง๋๋ก, BERT๋ ๋ ๋ฆฝ์ฑ ๊ฐ์ ํ์ ์งํ๋ ๊ฒ์ด๊ณ , AR language modeling์ ๋ ๋ฆฝ์ฑ ๊ฐ์ ์์ด ์งํํ์๋ค.
- Input noise: BERT์ ์ ๋ ฅ์ downstream task์์ ์ ํ ๋ฐ์ํ์ง ์๋ [MASK]์ ๊ฐ์ ์ธ๊ณต์ ์ธ ์ฌ๋ณผ์ด ํฌํจ๋๋๋ฐ, ์ด๊ฒ์ pretrain-finetune ๊ฐ์ ๋ถ์ผ์น๋ฅผ ๋ฐ์์ํจ๋ค.[MASK]๋ฅผ ๊ธฐ์กด์ ํ ํฐ๋ค๋ก ๋์ฒดํ๋ ๊ฒ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์๊ฐ ์๋๋ฐ, ์๋ํ๋ฉด ๊ธฐ์กด์ ํ ํฐ๋ค์ ์ ์ ํ๋ฅ ๋ก๋ง ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ง์ฝ ๊ทธ๋ ์ง ์์ผ๋ฉด ์์ 2๋ ์ต์ ํ ํ๊ธฐ์ ๋๋ฌด ์ฌ์ํด์ง ๊ฒ์ด๋ค. AR language modeling๊ณผ ๋น๊ตํ๋ฉด, AR language modeling์ ์ด๋ ํ ์ ๋ ฅ์ ์์์ ์์กดํ์ง ์๊ธฐ ๋๋ฌธ์, ์ด์ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์๋๋ค.
- Context dependency: AR representation์ธ $h_{\Theta }(\mathbf{x}_{1:t-1})$์ ์์น $t$ ๊น์ง์ ํ ํฐ์ ๋ํด์๋ง ์กฐ๊ฑด์ด ์ง์ ๋๋ ๋ฐ๋ฉด์, BERT์ representation์ธ $H_{\Theta }(x)_{t}$๋ ๋ฌธ๋งฅ์ ์ ๋ณด์ ๋ํด ์์ชฝ์์ ์ ๊ทผํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, BERT๊ฐ ๋ฌธ๋งฅ์ ๋ํด ์๋ฐฉํฅ์ผ๋ก ๋ ์ ์ดํดํ๊ฒ ๋ง๋ค์ด์ค๋ค.
2-2. Objective: Premutation Language Modeling
์์์ ๋น๊ตํ๋ ๊ฒ์ ๋ฐ๋ฅด๋ฉด, AR language modeling๊ณผ BERT๋ ์๋ก ๋ค๋ฅธ ๊ณณ์์์ ๊ทธ๋ค๋ง์ ์ ๋ํฌํ ์ฅ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ฌ๊ธฐ์ ์์ฐ์ค๋ฝ๊ฒ ๋๋ ์ง๋ฌธ์ ์ด ๋์ ์ ์ฝ์ ์ ์ธํ๊ณ ์ฅ์ ๋ง์ ๊ฐ์ง๊ณ ์ค๋ ๋ฐฉ๋ฒ์ ์์๊น์ด๋ค.
orderless NADE์์ ์์ด๋์ด๋ฅผ ๊ฐ์ง๊ณ ์์, ์ด ๋ ผ๋ฌธ์์๋ AR model์ ์ฅ์ ์ ๊ฐ์ง ๋ฟ๋ง ์๋๋ผ, ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ์๋ฐฉํฅ์ผ๋ก ์ดํดํ ์ ์๋๋ก ํด์ฃผ๋ ์์ด language modeling์ ์ ์ํ์๋ค. ํนํ, ๊ธธ์ด๊ฐ T์ธ sequence $\mathbf{x}$์ ๋ํด, autoregressive factorization์ ์ํ $T!$ ๊ฐ์ ์๋ก ๋ค๋ฅธ ์ ํจํ ์์๊ฐ ์๋ค. ์ง๊ด์ ์ผ๋ก, ๋ง์ฝ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ค์ด ๋ชจ๋ ๋ถํด ์ฐจ์์์ ๊ณต์ ๋๋ ๊ฒฝ์ฐ, ์์์ ํด๋ณด๋ฉด, ๋ชจ๋ธ์ ์ ๋ฐฉํฅ์ ๋ชจ๋ ์์น๋ก๋ถํฐ ์ ๋ณด๋ฅผ ๋ชจ์์ ํ์ตํ ์ ์์ ๊ฒ์ด๋ค.
์ด ์์ด๋์ด๋ฅผ ๊ณต์ํํด๋ณด๋ฉด, $Z_{T}$๋ ๊ธธ์ด๊ฐ T์ธ ์ธ๋ฑ์ค ์ํ์ค $[1,2,...,T]$์ ๋ชจ๋ ๊ฐ๋ฅํ ์์ด ์ธํธ๊ฐ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ $z_{t}$์ $\mathbf{z}_{<t}$๋ฅผ ์ฌ์ฉํด์ $t$๋ฒ์งธ ์์์ ์์ด $\mathbf{z}\in Z_{T}$์ ์ฒซ $t-1$๋ฒ์งธ ์์๋ฅผ ํ์ํ์๋ค. ๊ทธ ๋ค์์, ๋ ผ๋ฌธ์์ ์ ์๋ ์์ด language modeling์ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ ์ ์๋ค.
๋ณธ์ง์ ์ผ๋ก, text sequence $\mathbf{x}$์ ๋ํด, ๋ ผ๋ฌธ์์๋ factorization ์์ $\mathbf{z}$๋ฅผ ํ ๋ฒ์ ์ํ๋งํ๊ณ ๊ฐ๋ฅ๋ $p_{\Theta }(x)$๋ฅผ factorization ์์์ ๋ฐ๋ผ ๋ถํดํ์๋ค. ๊ทธ๋์ ๋๊ฐ์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ $\Theta$๋ ํ๋ จ ์ค์ ๋ชจ๋ factorization ์์์์ ๊ณต์ ๋์๋ค. ์์๋๋ก, $x_{t}$๋ ์ํ์ค์์ ๊ฐ๋ฅํ ๋ชจ๋ ์์ $x_{i} \neq x_{t}$๋ฅผ ๋ณด์์ผ๋ฏ๋ก, ์๋ฐฉํฅ์ผ๋ก ๋ฌธ๋งฅ์ ์ดํดํ ์ ์๋ค. ๊ฒ๋ค๊ฐ, ์ด ๋ฐฉ๋ฒ์ด AR ๊ตฌ์กฐ์ ๋ง๋ ๊ฒ์ฒ๋ผ, ์ด๊ฒ์ ์์ฐ์ ์ผ๋ก ๋ ๋ฆฝ์ ์ถ์ ์ ํผํ๊ณ , pretrain-finetune ๋ถ์ผ์น๋ฅผ ํผํ๋ค.
Remark on Permutation
์ ์๋ ๋ฐฉ๋ฒ์ sequence order๊ฐ ์๋ factorization order๋ก ์์ด ๋ฐฐ์นํ๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ sequence order๋ฅผ ์ ์งํ๊ณ , ๊ธฐ์กด์ ์ํ์ค์ ์์ํ๋ positional encoding์ ์ฌ์ฉํ๊ณ , factorization order์ ์์ด์ ์ป๊ฒ ํ๊ธฐ ์ํ ์ ์ ํ Transformer์ attention mask์ ์์กดํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ํ์ด ํ์์ ์ด๋ผ๊ณ ์ฃผ์ฅํ๋๋ฐ, ์๋ํ๋ฉด ๋ชจ๋ธ์ด fine-tuning ์ค์ ์ค์ง natural order์ text sequence๋ง ๋ง๋๊ธฐ ๋๋ฌธ์ด๋ค.
2-3. Architecture: Two-Stream Self-Attention for Target-Aware Representations
์์ด language modeling์๋ ์ํ๋ ํน์ฑ์ด ์์ง๋ง, ๊ธฐ์กด์ Transformer์ parameterization์ ์ด์ฉํ ์์งํ ์์ฉ์ ์๋ํ์ง ์์๋ค. ๋ฌธ์ ๋ฅผ ์ดํด๋ณด๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ Softmax ๊ณต์์ธ $p_{\Theta }(X_{z_{t}}=x|\mathbf{x}_{\mathbf{z}_{<t}})=\frac{exp(e(x)^{\top }h_{\Theta }(\mathbf{x}_{\mathbf{z}_{<t}}))}{\sum_{x'}^{}exp(e(x^{'})^{\top }g_{\Theta }(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}))}$์ ์ฌ์ฉํด์ next-token ๋ถํฌ์ธ $p_{\Theta }(X_{z_{t}}|\mathbf{x}_{\mathbf{z}_{<t}})$๋ฅผ ๋งค๊ฐ ๋ณ์ํํ๋ค๊ณ ๊ฐ์ ํ๋ค. ์ฌ๊ธฐ์ $h_{\Theta }(\mathbf{x}_{\mathbf{z}_{<t}})$๋ ๊ณต์ ๋ Transformer network์ ์ ์ ํ ๋ง์คํน์ ๊ฑฐ์น ํ์ ์์ฑ๋ $\mathbf{x}_{\mathbf{z}_{<t}}$์ hidden representation์ ๋ํ๋ธ๋ค. ์ฌ๊ธฐ์ representation $h_{\Theta}(\mathbf{x}_{\mathbf{z}_{<t}})$๋ ์์ธกํ ์์น ์ฆ, $z_{t}$์ ๊ฐ์ ์์กดํ์ง ์๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ ์ฉํ representation์ ๋ฐฐ์ธ ์ ์๋ target position์ ๋ํด ๊ฐ์์น ์๊ณ ๋๊ฐ์ ๋ถํฌ๊ฐ ์์ธก๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๋ค์ ํ ํฐ์ ๋ถํฌ๋ฅผ target position ์ธ์์ผ๋ก re-parameterizeํ ๊ฒ์ ์ ์ํ์๋ค.
์ฌ๊ธฐ์ $g_{\Theta}(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t})$๋ target position $z_{t}$๋ฅผ ์ถ๊ฐ์ ์ธ ์ ๋ ฅ์ผ๋ก ๊ฐ์ง๋ ์๋ก์ด ์ ํ์ representation์ ๋ํ๋ธ๋ค.
Two-Stream Self-Attention
target-aware representation์ ์์ด๋์ด๋ target ์์ธก์์ ๋ชจํธ์ฑ์ ์ ๊ฑฐํ์ง๋ง, $g_{\Theta}(\mathbf{x}_{\textbf{z}_{<t}}, z_{t})$๋ฅผ ๊ณต์ํํ๋ ๊ฒ์ ์ฌ์ํ ๋ฌธ์ ๋ก ๋จ์์๋ค. ๋ค๋ฅธ ๊ฐ๋ฅํ ๊ฒ๋ค ์ค์, ๋ ผ๋ฌธ์์๋ target position $z_{t}$์์ '์์' position $z_{t}$์ ์์กดํด์ attention์ ํตํด ๋ฌธ๋งฅ $\mathbf{x}_{\mathbf{z}_{<t}}$์ผ๋ก๋ถํฐ ์ ๋ณด๋ฅผ ๋ชจ์ผ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค. ์ด parameterization์ ์งํํ๊ธฐ ์ํด์ ๋ค์์ ๋ ๊ฐ์ง ์กฐ๊ฑด์ด ํ์ํ๋ฐ, ์ด ๋์ ๊ธฐ์กด์ Transformer architecture์์๋ ๋ชจ์๋๋ ๊ฐ๋ ์ด๋ค. ์ฒซ ๋ฒ์งธ, ์ค์ง position $z_{t}$๋ง์ ์ฌ์ฉํด์ ํ ํฐ $x_{z_{t}}$์ ์์ธกํ๋ ค๋ฉด $g_{\Theta }(\mathbf{x}_{\textbf{z}_{<t}}, z_{t})$๋ $x_{z_{t}}$๊ฐ ์๋ position $z_{t}$๋ง ์ฌ์ฉํด์ผ ํ๋ค. ๋ง์ฝ ๊ทธ๋ ์ง ์๋๋ค๋ฉด, ๋ฐฉ๋ฒ์ด ๋๋ฌด ์ฌ์ํด์ง๋ค. ๋ ๋ฒ์งธ, $j>t$์ ํจ๊ป ๋ค๋ฅธ ํ ํฐ $x_{z_{j}}$์ ์์ธกํ๋ ค๋ฉด $g_{\Theta }(\mathbf{x}_{\textbf{z}_{<t}}, z_{t})$๋ ๋ชจ๋ ๋ฌธ๋งฅ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด content $x_{z_{t}}$ ๋ํ ์ธ์ฝ๋ํด์ผํ๋ค. ์ด๋ฌํ ๋ชจ์์ ํด๊ฒฐํ๊ธฐ ์ํด์, ๋ ผ๋ฌธ์์๋ ํ ๊ฐ์ hidden representation์ ์ฌ์ฉํ๊ธฐ๋ณด๋ค๋ ๋ ๊ฐ์ ์ธํธ์ hidden representation์ ์ฌ์ฉํ ๊ฒ์ ์ ์ํ์๋ค.
- content representation์ธ $h_{\Theta }(\textbf{x}_{\textbf{z}_{\leq t}})$ ๋๋ ์ถ์ฝํ์ธ $h_{z_{t}}$๋ Transformer์ hidden state์ ๋น์ทํ ์ญํ ์ ํ๋ค. ์ด representation์ ๋ฌธ๋งฅ $x_{z_{t}}$์ ์๊ธฐ ์์ ์ ํจ๊ป ์ธ์ฝ๋ํ๋ค.
- query representation $g_{\Theta }(\mathbf{x}_{\textbf{z}_{<t}},z_{t})$ ๋๋ ์ถ์ฝํ์ธ $g_{z_{t}}$๋ ์ค์ง ๋ฌธ๋งฅ์ ์ ๋ณด $\textbf{x}_{\textbf{z}_{<t}}$์ position $z_{t}$์ ๋ํด์๋ง ์ ๊ทผํ๊ณ , content $x_{z_{t}}$์ ๋ํด์๋ ์ ๊ทผํ์ง ์๋๋ค.
์ฒซ ๋ฒ์งธ query stream์ ํ๋ จ ๊ฐ๋ฅํ ๋ฒกํฐ์ธ $g_{i}^{(0)}=w$์ผ๋ก ์์๋์ง๋ง, content stream์ ํด๋น ๋จ์ด์ ์๋ฒ ๋ฉ์ธ $h_{i}^{(0)}=e(x_{i})$๋ก ์ ํด์ง๊ฒ ๋๋ค. ๊ฐ๊ฐ์ self-attention ๊ณ์ธต์ธ $m=1,...,M$์ ๋ํด representation์ two streams๋๋ค์๊ณผ ๊ฐ์ ๊ณต์ ๋ ํ๋ผ๋ฏธํฐ ์ธํธ์ ํจ๊ป ๊ฐ๋ต์ ์ผ๋ก ์ ๋ฐ์ดํธ๋๋ค. ์ด ๊ณผ์ ์ ๊ทธ๋ฆผ 1์ a์ b์ ์ค๋ช ๋์ด ์๋ค.
์ฌ๊ธฐ์ Q, K, V๋ ๊ฐ๊ฐ attention์์์ ์ฟผ๋ฆฌ, ํค, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ๋ํ๋ธ๋ค. content representation์ update rule์ ๊ธฐ์กด์ self-attention๊ณผ ๋์ผํด์, finetuning ์ค์, ๋ ผ๋ฌธ์์๋ ๊ฐ๋จํ๊ฒ query stream์ dropํ๊ณ , ๋ณดํต์ Transformer-XL์์ ํ๋ ๊ฒ์ฒ๋ผ content stream์ ์ฌ์ฉํ์๋ค. ๋ง์นจ๋ด, ๋ชจ๋ธ์ ์์ ์์ 4๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํ, ๋ง์ง๋ง layer์ query representation์ธ $g_{z_{t}}^{(M)}$๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
Partial Prediction
์์ด language modeling (3)์๋ ์ฌ๋ฌ๊ฐ์ง ์ด์ ์ด ์์ง๋ง, ์์ด์ผ๋ก ์ธํด ํจ์ฌ ๋ ์ด๋ ค์ด ์ต์ ํ ๋ฌธ์ ์ด๋ฉฐ, ์๋น ์คํ์์ ์๋ ด์ด ๋๋ ค์ง๋ค. ์ต์ ํ์ ์ด๋ ค์์ ์ค์ด๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ factorization order์ ๊ฐ์ฅ ์ต๊ทผ์ ํ ํฐ๋ง์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ์ ํํ๋ค. ๊ณต์์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ $\textbf{z}$๋ฅผ non-target subsequence์ธ $\textbf{z}_{\leq c}$์ target subsequence $\textbf{z}_{>c}$๋ก ๋ถ๋ฆฌํ์๋ค. ์ฌ๊ธฐ์ $c$๋ ์๋ฅด๋ ์ง์ ์ด๋ค. ๋ชฉํ๋ non-target subsequence์ ์กฐ์ ๋ target sequence์ ๋ก๊ทธ ์ ํจ์ฑ์ ์ต๋ํํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ $\textbf{z}_{>c}$๋ target์ ๋ฐ๋ผ์ ์ ํ๋๋๋ฐ, ์๋ํ๋ฉด ์ด๊ฒ์ ์ฃผ์ด์ง ํ์ฌ์ factorization order $\textbf{z}$์ ๊ฐ์ฅ ๊ธด ๋ฌธ๋งฅ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ $K$๋ ๋ค์๊ณผ ๊ฐ์ด ์ฌ์ฉ๋๋๋ฐ, 1 /$K$์ ํ ํฐ๋ค์ด ์์ธก์ ์ํด ์ ํ๋๋ค. ์ด K๋ $|\textbf{z}| / (|\textbf{z}|-c)$์ผ๋ก ๊ทผ์ฌ๋๋ค. ์ ํ๋์ง ์์ ํ ํฐ๋ค์ ๋ํด, ์ด๋ค์ query representation์ ์๋์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋ผ๊ธฐ ์ํด ๊ณ์ฐ๋ ํ์๊ฐ ์๋ค.
2-4. Incorporating Ideas from Transformer-XL
๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ AR framework์ ์๋ง๊ธฐ ๋๋ฌธ์, ๋ ผ๋ฌธ์์๋ SOTA AR language model์ธ Transformer-XL์ ๋ชจ๋ธ์ pretraining framework์ ํจ๊ป ์ฌ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ Transformer-XL์ ๋ ์ค์ํ ๋ฐฉ๋ฒ์ธ relative positional encoding๊ณผ segment recurrence mechanism์ ํตํฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ์ํ์ค์ ๊ธฐ๋ฐ์ ๋ relative positional encoding์ธ straightforward๋ฅผ ์ ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด์ ๋ ผ๋ฌธ์์๋ recurrence mechanism์ ์ด๋ป๊ฒ ์ ์๋ ์์ด ์ธํ ์ ํตํฉํ ์ง์ ๋ชจ๋ธ์ด ์ด์ ์ธ๊ทธ๋จผํธ์ hidden state๋ฅผ ์ฌ์ฌ์ฉํ ์ ์๊ฒ ํ ์ง ๋ ผ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ผ๋ฐ์ฑ์ ์์ง ์๊ณ ๊ธด ์ํ์ค $\textbf{s}$์์ ๊ฐ์ ธ์จ ๋ ๊ฐ์ ์ธ๊ทธ๋จผํธ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์๋ค. ๊ฐ๊ฐ $\tilde{\textbf{x}}=\textbf{s}_{1:T}$์ $\textbf{x}_{T+1:2T}$๊ฐ์ด ๋ง์ด๋ค. ๊ทธ๋์ $\tilde{\textbf{z}}$์ $\textbf{z}$๋ ๊ฐ๊ฐ ์์ด $[1\cdot \cdot \cdot T]$์ $[T+1 \cdot \cdot \cdot 2T]$๊ฐ ๋๋ค. ๊ทธ ๋ค์์, ์์ด $\tilde{\textbf{z}}$์ ๊ธฐ๋ฐ์ ๋ฌ์ ์ฒซ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ๋ฅผ ์งํํ๊ณ , ๊ฐ layer $m$์ ๋ํด ์ป์ด์ง content representation $\tilde{\mathbf{h}}^{(m)}$์ ์บ์ํด๋๋ค. ๊ทธ ๋ค์์, ๋ค์ ์ธ๊ทธ๋จผํธ $\textbf{x}$๋ฅผ ์ํด, attention์ ๋ฉ๋ชจ๋ฆฌ์ ํจ๊ป ์ ๋ฐ์ดํธ ๋๋๋ฐ ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.
์ฌ๊ธฐ์ $[.,.]$์ ์ํ์ค ์ฐจ์์ ๋ฐ๋ผ ์ฐ๊ฒฐํ๋ ๊ฒ์ ์๋ฏธํ๋ค. positional encdoing์ ์ค์ง ๊ธฐ์กด ์ํ์ค์ ์ค์ position์๋ง ์์กดํ๋ค. ๋ฐ๋ผ์, ์์ attention update๋ representation $\tilde{\textbf{h}}^{(m)}$๊ฐ ์ป์ด์ง๋ฉด $\tilde{\textbf{z}}$์ ๋ฌด๊ดํ๋ค. ์ด๊ฒ์ ์ด์ ์ธ๊ทธ๋จผํธ์ factorization order์ ๋ชจ๋ฅด๊ณ ๋ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์บ์ํ๊ณ ์ฌ์ฌ์ฉํ ์ ์๊ฒ ํด์ค๋ค. ๊ธฐ๋๋ก๋, ๋ชจ๋ธ์ด ์ต๊ทผ์ ์ธ๊ทธ๋จผํธ์ ์ ๋ฐ์ ์ธ factorization order์ memory๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ํ์ตํ ๊ฒ์ด๋ค. query stream๋ ๋๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ณ์ฐ๋ ์ ์๋ค. ๋ง์นจ๋ด, ๊ทธ๋ฆผ 1์ c๋ ์ ์๋ two-stream attention๊ณผ ํจ๊ป ํ๋ ์์ด language modeling์ ๊ฐ์๋ฅผ ๋ณด์ฌ์ค๋ค.
2-5. Modeling Multiple Segments
๋ค์ํ downstream task๋ ๋ค์ค์ ์ ๋ ฅ ์ธ๊ทธ๋จผํธ๋ฅผ ๊ฐ์ง๋ค. ์๋ฅผ ๋ค์ด์ question answering์์ question๊ณผ context paragraph ๋ ๊ฐ์ ์ ๋ ฅ์ด ์ฃผ์ด์ง๋ฏ์ด ๋ง์ด๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ autoregressive framework์์ ์ฌ๋ฌ ์ธ๊ทธ๋จผํธ๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด XLNet์ ์ฌ์ ํ๋ จํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ ผ์ํ์๋ค. pretraining ์๊ธฐ์ BERT์ ๊ฐ์ด ๋๋คํ๊ฒ ๋ ๊ฐ์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ํ๋งํ๊ณ , ๋ ์ธ๊ทธ๋จผํธ๋ฅผ ํ๋์ ์ํ์ค๋ก ํฉ์น ๋ค์ ๋ค๋ฃธ์ผ๋ก์จ ์์ด language modeling์ ์งํํ์๋ค. ๋ชจ๋ธ์ ์ค์ง ๊ฐ์ ๋ฌธ๋งฅ์ ์ํด ์๋ ๋ฉ๋ชจ๋ฆฌ๋ง์ ์ฌ์ฌ์ฉํ๋ค. ํนํ, XLNet์ ์ ๋ ฅ์ BERT์ ๊ฐ์ด [CLS, A, SEP, B, SEP]์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ฌ๊ธฐ์ "SEP"์ "CLS"๋ ๋ ๊ฐ์ ํน๋ณํ ์ฌ๋ณผ์ด๊ณ , "A"์ "B"๋ ๋ ๊ฐ์ ์ธ๊ทธ๋จผํธ์ด๋ค. XLNet ๋ํ two-segment ๋ฐ์ดํฐ ํ์์ ์ด์ฉํ์ง๋ง, XLNet-Large๋ ablation study์์ ์ผ๊ด๋ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์ง ์๊ธฐ ๋๋ฌธ์ next sentence prediction์ ์ฌ์ฉํ์ง ์์๋ค.
Relative Segment Encodings
๊ตฌ์กฐํ์ ์ผ๋ก BERT์ ๋ค๋ฅธ ์ ์ BERT๋ absolute segment embedding์ word embedding์ ๊ฐ position์ ์ถ๊ฐํ๋๋ฐ, XLNet์ Transformer-XL์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํ relative encoding ์์ด๋์ด๋ฅผ ํ์ฅ์์ผฐ๋ค. ์ํ์ค์ position $i$์ $j$ ์์ด ์ฃผ์ด์ก์ ๋, ๋ง์ฝ $i$์ $j$๊ฐ ๋์ผํ ์ธ๊ทธ๋จผํธ์์ ๋์๋ค๋ฉด, ์ธ๊ทธ๋จผํธ ์ธ์ฝ๋ฉ $\textbf{s}_{ij} = \textbf{s}_{+}$ ๋๋ $\textbf{s}_{ij} = \textbf{s}_{-}$์ ์ฌ์ฉํ์๋ค. ์ฌ๊ธฐ์ $\textbf{s}_{+}$์ $\textbf{s}_{-}$๋ ๊ฐ attention head์ ๋ํ ํ์ต ๊ฐ๋ฅํ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ด๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, ์ด ๋ชจ๋ธ์ ์ค์ง ๋ position์ด ๋์ผํ ์ธ๊ทธ๋จผํธ ์ด๋ด์ ์กด์ฌํ๋์ง ์ฌ๋ถ๋ง ๊ณ ๋ คํ๋ค. ํน์ ์ธ๊ทธ๋จผํธ์ ์์น๋ ๊ณ ๋ คํ์ง ์๋๋ค. ์ด๊ฒ์ relative positional encoding์ ํต์ฌ ์์ด๋์ด์ ์ผ์นํ๋๋ฐ ์ฆ, ์์น ๊ฐ์ ๊ด๊ณ๋ง ๋ชจ๋ธ๋งํ๋ค. $i$๊ฐ $j$๋ฅผ ์ฐธ์กฐํ ๋, ์ธ๊ทธ๋จผํธ ์ธ์ฝ๋ฉ $\textbf{s}_{ij}$๋ attention ๊ฐ์ค์น $a_{ij}=(\textbf{q}_{i}+\textbf{b})^{\top}\textbf{s}_{ij}$๋ฅผ ๊ณ์ฐํ๋๋ฐ ์ฌ์ฉ๋๋ค. ์ฌ๊ธฐ์ $\textbf{q}_{i}$๋ ๊ธฐ์กด์ attention ์ฐ์ฐ์์์ฒ๋ผ query ๋ฒกํฐ์ด๊ณ , $\textbf{b}$๋ ํ์ต ๊ฐ๋ฅํ head-specificํ bias ๋ฒกํฐ์ด๋ค. ๋ง์นจ๋ด, ๊ฐ $a_{ij}$๋ ๋ณดํต์ attention ๊ฐ์ค์น์ ๋ํด์ง๋ค. relative segment encoding์ ์ฌ์ฉํ๋ ๋ฐ์๋ ๋ ๊ฐ์ง ์ฅ์ ์ด ์กด์ฌํ๋ค. ์ฒซ ๋ฒ์งธ๋, relative encoding์ inductive bias๊ฐ ์ผ๋ฐํ๋ฅผ ํฅ์์ํจ๋ค๋ ์ ์ด๋ค. ๋ ๋ฒ์งธ๋, absolute segment encoding์ ์ฌ์ฉํด์๋ ๋ถ๊ฐ๋ฅํ ๋ ๊ฐ ์ด์์ ์ ๋ ฅ ์ธ๊ทธ๋จผํธ๋ฅผ ๊ฐ์ง๋ task์ ๋ํด finetuning์ ํ ์ ์๋ ๊ธฐํ๋ฅผ ์ด์ด์ค๋ค.
2-6. Discussion
์์ ์ค๋ช ํ ์์ 2์ ์์ 5๋ฅผ ๋น๊ตํด๋ณด๋ฉด, BERT์ XLNet ๋ชจ๋๋ partial prediction์ ์ํํ๋ค ์ฆ, ์ํ์ค์์ token์ subset๋ง์ ์์ธกํ๋ค. ์ด๊ฒ์ BERT์๊ฒ๋ ํ์์ ์ธ ์ ํ์ธ๋ฐ, ์๋ํ๋ฉด ๋ง์ฝ ๋ชจ๋ ํ ํฐ๋ค์ด ๋ง์คํน๋๋ฉด, ์ด๋ ํ ์๋ฏธ์๋ ์์ธก์ ํ ์๊ฐ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ถ๊ฐ์ ์ผ๋ก, BERT์ XLNet ๋ชจ๋์๊ฒ์ partial prediction์ ์ถฉ๋ถํ ๋ฌธ๋งฅ๊ณผ ํจ๊ป ์ค์ง ํ ํฐ์ ์์ธกํจ์ผ๋ก์จ optimization์ ์ด๋ ค์์ ์ค์ฌ์ฃผ๋ ์ญํ ์ ํ๋ค. ํ์ง๋ง, 2-1์์ ๋ ผ์๋ ๋ ๋ฆฝ์ ์ถ์ ์ target ๊ฐ์ ์ข ์์ฑ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ์ข ์์ฑ์ ๋นํ์ฑํ ํ๋ค.
์ฐจ์ด์ ์ ๋ ์ ์ดํดํ๊ธฐ ์ํด, ๋๋ ทํ ์์์ธ [New, York, is, a , city]๋ฅผ ๋ค์ด๋ณด์. BERT์ XLNet ๋ชจ๋ ๋ ๊ฐ์ ํ ํฐ [New, York]๋ฅผ ์์ธก ํ์ผ์ผ๋ก ์ ํํ๊ณ , $log$ $p$(New York | is a city)๋ฅผ ์ต๋ํํ๋ค๊ณ ๊ฐ์ ํด๋ณด์. ๋ํ XLNet์ด factorization order [is, a , city, New, York]๋ฅผ ์ํ๋งํ๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์ด ๊ฒฝ์ฐ์๋, BERT์ XLNet ๊ฐ๊ฐ์ด ๋ค์๊ณผ ๊ฐ์ด ๊ฐ์ํ๋ค.
XLNet์ (New, York)์ ์ ์ฌ์ด์์ ์์กด์ฑ์ ์์๋ผ ์ ์๋ค. ์ด๋ฌํ ์ ์ด BERT์์๋ ์๋ต๋์ด ์๋ค. ๋น๋ก ์ด ์์์์ BERT๋ ์ด๋ ํ ์์กด ์ (New, city)๊ณผ (York, city)๋ฅผ ๋ฐฐ์ฐ๊ธด ํ์ง๋ง, XLNet์ ๋์ผํ target์ด ์ฃผ์ด์ง๋ฉด ํญ์ ๋ ๋ง์ ์ข ์์ฑ ์์ ํ์ตํ๊ณ "denser"ํ ํจ๊ณผ์ ์ธ ํ๋ จ ์ ํธ๋ฅผ ํฌํจํ๋ค๋ ๊ฒ์ ๋ถ๋ช ํ๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/1906.08237
https://www.youtube.com/watch?v=iIk1_QfBwTw
https://www.youtube.com/watch?v=koj9BKiu1rU