What improvements have been made in this paper?
XLNet ๋ ผ๋ฌธ์ ์ด์ ์ ๋ชจ๋ธ์ธ Transformer-XL์ ์๊ฐํ ์ฐ๊ตฌ์ง๋ค์ด ํ์์ผ๋ก ์งํํด์ ๋ฐํํ ๋ ผ๋ฌธ์ผ๋ก, Transformer-XL์ ๊ฐ์ ์ํค๊ณ , BERT์ MLM์ผ๋ก๋ถํฐ ๋ฐ์ํ๋ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ ๋ชจ๋ธ์ธ XLNet์ ์๊ฐํ์๋ค. ์ด XLNet์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค. ์ด XLNet์ ๋น์์ SOTA์๋ Transformer-XL์ ์์ด๋์ด๋ฅผ ํตํฉํ์ฌ ์ฌ์ ํ๋ จ์ ์งํํ์๋ค.
- XLNet์ factorization order์ ๋ชจ๋ ์์ด์ ๋ํด ์์ ๊ฐ๋ฅ์ฑ์ ์ต๋ํํ์ฌ ์๋ฐฉํฅ์ผ๋ก ๋ฌธ๋งฅ์ ํ์ตํ ์ ์๊ฒ ํ์๋ค.
- auto regressive formulation ๋๋ถ์ BERT์ ์ ์ฝ์ ๊ทน๋ณตํ ์ ์์๋ค.
์์ ๊ฐ์ ํน์ง์ ๊ฐ์ง๊ณ ์๋ XLNet์ ๋๋ถ๋ถ์ task์์ BERT๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
1-1. AR language modeling
1-2. AE language modeling
1-3. XLNet
2. Propsed Method
2-1. Background
2-2. Objective: Premutation Language Modeling
2-3. Architecture: Two-Stream Self-Attention for Target-Aware Representations
2-4. Incorporating Ideas from Transformer XL
2-5. Modeling Multiple Segments
2-6. Discussions
1. Introduction
๋น์ง๋์ representation ํ์ต์ NLP ๋ถ์ผ์์ ๋งค์ฐ ์ฑ๊ณตํ ๋ถ์ผ์๋ค. ๋๊ฒ, ์ด ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ฐฉ๋ํ ์์ ๋ผ๋ฒจ๋ง์ด ๋์ด ์์ง ์์ text corpus์ ๋ํด ์ ๊ฒฝ๋ง์ ์ด์ฉํ์ฌ ์ฌ์ ํ๋ จ๋๊ณ , ๋ชจ๋ธ๊ณผ representation์ finetune ํ์ฌ downstream task์ ์ ์ฉํ์๋ค. ์ด ๊ณต์ ๋ high-level์ ์์ด๋์ด์ ๋ฐ๋ผ ๋ค์ํ ๋น์ง๋ ์ฌ์ ๊ต์ก ๋ชฉํ๊ฐ ๋ฌธํ์์ ํ์๋์๋ค. ๊ทธ ์ค์์, autoregressive = AR ๋ชจ๋ธ๋ง๊ณผ autoencoding = AE ๋ชจ๋ธ๋ง์ด ๊ฐ์ฅ ์ฑ๊ณตํ ์ฌ์ ํ๋ จ ๋ฐฉ๋ฒ์ด๋ค.
1-1. AR language modeling
AR language modeling์ autoregressive model์ ์ฌ์ฉํ์ฌ text corpus์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ธก์ ํ๋ค. ์ด๋ฅผ ๋ค์ ๋งํ๋ฉด, previous token์ด ์ฃผ์ด์ก์ ๋, sentence์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ค๋ ๊ฒ์ด๋ค. AR์ ํ๋ฅ ์ ์ด์ ๋จ์ด๋ค์ด ๋์์ ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ค๋ก ์ธ์๋ถํดํ ์ ์๋ค. ํนํ, text sequence $\mathbf{x} = (x_{1}, ..., x_{T})$๊ฐ ์ฃผ์ด์ง๋ฉด, AR language modeling์ ๊ฐ๋ฅ๋๋ฅผ ์ ๋ฐฉ ๊ณฑ $p(x) = \prod_{t=1}^{T}p(x_{t}|\mathbf{x}_{<t})$ ๋๋ ํ๋ฐฉ ๊ณฑ $p(x) = \prod_{t=T}^{1}p(x_{t}|\mathbf{x}_{>t})$์ผ๋ก ๋ถํดํ๋ค. ์ ๊ฒฝ๋ง๊ณผ ๊ฐ์ ๋งค๊ฐ ๋ณ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋๋ก ํ์ต๋๋ค. ๊ทธ๋์ AR model์ ์ค์ง ์ ๋ฐฉํฅ ๋๋ ์ญ๋ฐฉํฅ๊ณผ ๊ฐ์ ๋จ๋ฐฉํฅ์ผ๋ก๋ง ํ์ต๋๊ธฐ ๋๋ฌธ์, deepํ ์๋ฐฉํฅ ๋ฌธ๋งฅ์ ๊ดํด ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๊ทธ๋ฆฌ ํจ๊ณผ์ ์ด์ง ์๋ค. ์ด์๋ ๋ฐ๋๋ก, downstream language understanding tasks๋ ์ฃผ๋ก ์๋ฐฉํฅ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์๊ตฌํ๋ค. ๊ทธ๋์ AR language modeling๊ณผ ํจ๊ณผ์ ์ธ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ ์ฌ์ด์๋ gap์ด ์๊ธธ ์๋ฐ์ ์๋ค.
๋ํ์ ์ผ๋ก AR language modeling์๋ ELMo์ GPT๊ฐ ์กด์ฌํ๋๋ฐ, ์ฌ๊ธฐ์ GPT๋ ๋จ๋ฐฉํฅ์ ์ ๋ณด๋ง ์ด์ฉํ๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค. ELMo ๊ฐ์ ๊ฒฝ์ฐ์๋ ์๋ฐฉํฅ์ ์ด์ฉํ๊ธฐ๋ ํ์ง๋ง, ๊ฐ๊ฐ์ ๋ฐฉํฅ์ผ๋ก ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ ๊ฒ์ ๋จ์ํ concatenateํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์์ ์ดํด๋ง ๊ฐ๋ฅํ๋ค.
1-2. AE language modeling
์์ AR language modeling๊ณผ ๋น๊ตํ๋ฉด, AE ๊ธฐ๋ฐ์ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ ๋ช ํํ density estimation์ ์ํํ์ง๋ ์์ง๋ง, ์์์ด ๋์ด ์๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์กด์ ๋ฐ์ดํฐ๋ก ์ฌ๊ฑด์ถํ๋ ๊ฒ์ ์ด์ ์ ๋์๋ค. ์ด์ ๋ํ์ ์ธ ์๊ฐ ๋น์์ SOTA๋ฅผ ์ฐจ์งํ๊ณ ์๋ BERT์ด๋ค. ์ ๋ ฅ ์ํ์ค๊ฐ ์ฃผ์ด์ง๋ฉด, ํน์ ๋ถ๋ถ์ ํ ํฐ๋ค์ ํน๋ณํ ์ฌ๋ณผ์ธ [MASK]๋ก ๋์ฒด๋๊ณ , ๋ชจ๋ธ์ [MASK]๋ก ์ธํด ์์๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์กด์ ๋ฐ์ดํฐ๋ก ๋ณต๊ตฌํ๊ธฐ ์ํด ํ์ต๋๋ค. ๊ทธ๋์ density estimation์ BERT์ ๋ชฉํ๊ฐ ์๋๋ค.
๊ทธ๋ฆฌ๊ณ BERT๋ ์๋ฐฉํฅ์ฑ ๋ฌธ๋งฅ์ ์ฌ๊ตฌ์กฐํ์ ์ฌ์ฉํ๋ค. ์ด๊ฒ์ ์ฆ๊ฐ์ ์ธ ์ฅ์ ์, AR language modeling์ ์กด์ฌํ๋ ์๋ฐฉํฅ์ฑ์ ์ ๋ณด gap์ ๋ฌธ์ ๋ฅผ ์ฒ ํํ๋ค. ํ์ง๋ง, BERT์ ํ๋ จ์ ์ฌ์ฉ๋๋ ์ธ๊ณต์ ์ธ ์ฌ๋ณผ์ธ [MASK]๋ finetuning์ ํ๋ ์์ ์ ์ค์ ๋ฐ์ดํฐ์์๋ ์กด์ฌํ์ง ์์์, ์ฌ์ ํ๋ จ๊ณผ finetuning ์ฌ์ด์ ๋ถ์ผ์น๊ฐ ์กด์ฌํ๊ฒ ๋๋ค. ๊ฒ๋ค๊ฐ, ์์ธก๋ ํ ํฐ๋ค์ ์ ๋ ฅ์์ ๋ง์คํน๋์ด ์๊ธฐ ๋๋ฌธ์, BERT๋ AR language modeling์์ ํ๋ ๊ฒ์ฒ๋ผ ๊ฒฐํฉ ํ๋ฅ ์ ๋ชจ๋ธ๋งํ ์ ์๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, BERT๋ ๋ง์คํน์ด ๋์ด ์์ง ์๋ ํ ํฐ์ด ์ฃผ์ด์ง๊ฒ ๋๋ฉด, ์์ธก๋ ํ ํฐ์ด ์๋ก ๋ ๋ฆฝ์ ์ด๋ผ๊ณ ๊ฐ์ ํ๋ค. ์ด๋ ์์ฐ์ด์์ ๊ณ ์ฐจ์์ ์ฅ๊ฑฐ๋ฆฌ ์ข ์์ฑ์ด ๋ง์ฐํ๊ธฐ ๋๋ฌธ์ ์ง๋์น๊ฒ ๋จ์ํ๋๋ค.
1-3. XLNet
ํ์กดํ๋ language pretraining ๋ฐฉ๋ฒ๋ค์ ์ฅ์ ๊ณผ ๋จ์ ์ ์ดํด๋ณด๋ฉด์, ์ด ๋ ผ๋ฌธ์์๋ XLNet์ ์๊ฐํ์๋ค. ์ด๊ฒ์ ์ผ๋ฐํ๋ AR ๋ฐฉ๋ฒ์ผ๋ก ์ต๊ณ ์ AR language modeling๊ณผ AE language modeling์ leverage ํ๋ฉด์ ์ด๋ค์ ์ ์ฝ์ ํผํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- ์ฒซ ๋ฒ์งธ๋ก, ์ ํต์ ์ธ AR model์ฒ๋ผ, ๊ณ ์ ๋ ์ ๋ฐฉํฅ ๋๋ ์ญ๋ฐฉํฅ ๋ถํด ์์๋ฅผ ์ฌ์ฉํ๊ธฐ ๋ณด๋ค๋sequence์ ์์๋ log ๊ฐ๋ฅ๋๋ฅผ ๋ถํด ์์์ ๋ชจ๋ ๊ฐ๋ฅํ ์์ด์ ๊ดํ์ฌ ๊ทน๋ํํ์๋ค. ์์ด operation ๋๋ถ์, ๊ฐ ์์น์ ๋ฌธ๋งฅ์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ๋ชจ๋์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์์๋ค. ์์์ผ๋ก๋, ๊ฐ ์์น๋ค์ ๋ชจ๋ ์์น๋ก๋ถํฐ ์ป์ ๋ฌธ๋งฅ์ ์ ๋ณด๋ฅผ ์ด์ฉํ๊ธฐ ์ํด ํ๋ จ๋๋ค.
- ๋ ๋ฒ์งธ๋ก, ์ผ๋ฐํ๋ AR language model์ธ XLNet์ ๋ฐ์ดํฐ ์์์ ์์กดํ์ง ์๋๋ค. ๋ฐ๋ผ์, XLNet์ BERT๊ฐ ๊ฒช๋ pretraining-finetuning ๊ฐ์ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์๋๋ค. ๊ทธ ์ฌ์ด์, AR ๋ฐฉ๋ฒ๋ค์ BERT์์ ์งํ๋๋ ๋ ๋ฆฝ์ ์ถ์ ์ด ์ ๊ฑฐ๋, ์์ธก๋ ํ ํฐ๋ค์ ๊ฒฐํฉ ํ๋ฅ ์ ๋ถํดํ๊ธฐ ์ํ product rule์ ์ฌ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ ๋ํ ์ ๊ณตํ๋ค.
์ถ๊ฐ์ ์ผ๋ก, ์๋ก์ด pretraining ๋ฐฉ๋ฒ์ผ๋ก, XLNet์ pretraining์ ์ํ ๊ตฌ์กฐ์ ๋์์ธ์ ๊ฐ์ ์์ผฐ๋ค.
- AR language modeling์์์ ์ต๊ทผ์ ๊ฐ์ ์ ์์ ์๊ฐ์ ๋ฐ์, XLNet์ Transformer-XL์ segment recurrence ๋ฉ์ปค๋์ฆ๊ณผ relative positional encoding์ pretraining์ ํตํฉํ์๋ค. ์ต๊ฒ์ ๊ธด text sequence์ task์ ๋ํด์ ํนํ ๋ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- ์์ํ๊ฒ Transformer-XL architecture์ ์์ด ๊ธฐ๋ฐ์ language modeling์ ์ ์ฉํ๋ ๊ฒ์ ์๋ํ์ง ์๋๋ค. ์๋ํ๋ฉด ๋ถํด ์์๋ ์์์ ์ด๊ณ , ํ๊ฒ์ ๋ชจํธํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด์ ๋ํ ํด๋ฒ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ๋ชจํธ์ฑ์ ์์ ๊ธฐ ์ํด Transformer-XL network๋ฅผ reparameterize ํ์๋ค.
์คํ์์๋, ๋น์ทํ ์คํ์ ์ธํ ์์ XLNet์ ๋์ ๋ฒ์์์ BERT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
2. Proposed Method
2-1. Background
์ด ์น์ ์์, ๋ ผ๋ฌธ์์๋ ์ ํต์ ์ธ AR language modeling๊ณผ BERT์ language pretraining์ ๋ฆฌ๋ทฐํ๊ณ ๋น๊ตํ์๋ค. text sequence $\mathbf{x} = [x_{1}, \cdot \cdot \cdot , x_{T}]$๊ฐ ์ฃผ์ด์ง๋ฉด, AR language modeling์ ์ ๋ฐฉํฅ autoregressive factorization์ ํตํด ๊ฐ๋ฅ๋๋ฅผ ์ต๋ํ์ํค๋ฉด์ pretraining์ ์ํํ๋ค. ์๋์ ์์์ด ์ด๋ฅผ ๋ํ๋ธ๋ค.
$\underset{\Theta }{max} log p_{\Theta}(x_{t}|\mathbf{x}_{<t}) = \sum_{t=1}^{T}log\frac{exp(h_{\Theta}(\mathbf{x}_{1:t-1})^{\top }e(x_{t}))}{\sum_{x^{'}}exp(h_{\Theta}(\mathbf{x}_{1:t-1})^{\top })e(x^{'})^{}}$
์์ 1. AR language modeling forward autoregressive factorization
์์ ์์์์ $h_{\Theta }(\mathbf{x}_{1:t-1})$๋ Transformer ๋๋ RNN๊ณผ ๊ฐ์ ์ ๊ฒฝ๋ง์ ํตํด ์์ฑ๋ context representation์ด๊ณ , $e(x)$๋ $x$์ ์๋ฒ ๋ฉ์ ๊ฐ๋ฆฌํจ๋ค. BERT์ ๋น๊ตํ๋ฉด, BERT๋ denoising AE์ ๊ธฐ๋ฐํ๊ณ ์๋ค. ํนํ, text seqeunce $\mathbf{x}$์ ๋ํด, BERT๋ ์ฒ์์ ์์๋ ๋ฒ์ ์ธ $\mathbf{\hat{x}}$์ ๋๋คํ ๋น์จ๋ก ์์ฑํ๋ค. ์ฌ๊ธฐ์ ๋ง์คํน๋ ํ ํฐ์ $\bar{\mathbf{x}}$์ด๋ค. ์ด์ ๋ฐ๋ผ training ๋ฐฉ๋ฒ์ $\mathbf{\hat{x}}$์์ $\bar{\mathbf{x}}$๋ก ์ฌ๊ฑด์ถ๋๋ค.
์ ์์์์ $m_{t} = 1$์ $x_{t}$๊ฐ ๋ง์คํน ๋์๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํค๊ณ , $H_{\Theta }$๋ ๊ธธ์ด๊ฐ T์ธ text sequence $\mathbf{x}$๋ฅผ ํ๋ ๋ฒกํฐ $H_{\Theta }(\mathbf{x})=[H_{\Theta }(\mathbf{x})_{1},H_{\Theta }(\mathbf{x})_{2},\cdot \cdot \cdot ,H_{\Theta }(\mathbf{x})_{T}]$์ ๋งคํํ Transformer์ด๋ค. ๋ ๊ฐ์ pretraining ๋ฐฉ๋ฒ์ ์ฅ์ ๊ณผ ๋จ์ ์ ๋ค์๊ณผ ๊ฐ์ ์ธก๋ฉด์์ ๋น๊ต๊ฐ ๋๋ค.
- Independence Assumption: ์์ ์์ 2์์ $\approx$์ ์ํด ๊ฐ์กฐ๋๋ ๊ฒ์ฒ๋ผ, BERT๋ ๋ชจ๋ MASK ํ ํฐ๋ค์ธ $\bar{\mathbf{x}}$์ด ๋ฐ๋ก๋ฐ๋ก ์ฌ๊ฑด์ถ๋์๋ค๋ ๋ ๋ฆฝ์ ์ถ์ ์ ๊ธฐ๋ฐ์ ๋ ๊ฒฐํฉ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ธ $p(\bar{x}|\hat{x})$๋ฅผ ๋ถํดํ๋ค. ์์ ์์ 1์ AR language modeling๊ณผ ๋น๊ตํ๋ฉด, AR language modeling์ $p_{\Theta }(x)$์ ๋ ๋ฆฝ์ฑ ๊ฐ์ ์์ด ๋ณดํธ์ ์ผ๋ก ์ ์ง๋๋ product rule์ ์ฌ์ฉํด์ ๋ถํดํ๋ค. ํ ๋ง๋๋ก, BERT๋ ๋ ๋ฆฝ์ฑ ๊ฐ์ ํ์ ์งํ๋ ๊ฒ์ด๊ณ , AR language modeling์ ๋ ๋ฆฝ์ฑ ๊ฐ์ ์์ด ์งํํ์๋ค.
- Input noise: BERT์ ์ ๋ ฅ์ downstream task์์ ์ ํ ๋ฐ์ํ์ง ์๋ [MASK]์ ๊ฐ์ ์ธ๊ณต์ ์ธ ์ฌ๋ณผ์ด ํฌํจ๋๋๋ฐ, ์ด๊ฒ์ pretrain-finetune ๊ฐ์ ๋ถ์ผ์น๋ฅผ ๋ฐ์์ํจ๋ค.[MASK]๋ฅผ ๊ธฐ์กด์ ํ ํฐ๋ค๋ก ๋์ฒดํ๋ ๊ฒ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์๊ฐ ์๋๋ฐ, ์๋ํ๋ฉด ๊ธฐ์กด์ ํ ํฐ๋ค์ ์ ์ ํ๋ฅ ๋ก๋ง ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ง์ฝ ๊ทธ๋ ์ง ์์ผ๋ฉด ์์ 2๋ ์ต์ ํ ํ๊ธฐ์ ๋๋ฌด ์ฌ์ํด์ง ๊ฒ์ด๋ค. AR language modeling๊ณผ ๋น๊ตํ๋ฉด, AR language modeling์ ์ด๋ ํ ์ ๋ ฅ์ ์์์ ์์กดํ์ง ์๊ธฐ ๋๋ฌธ์, ์ด์ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์๋๋ค.
- Context dependency: AR representation์ธ $h_{\Theta }(\mathbf{x}_{1:t-1})$์ ์์น $t$ ๊น์ง์ ํ ํฐ์ ๋ํด์๋ง ์กฐ๊ฑด์ด ์ง์ ๋๋ ๋ฐ๋ฉด์, BERT์ representation์ธ $H_{\Theta }(x)_{t}$๋ ๋ฌธ๋งฅ์ ์ ๋ณด์ ๋ํด ์์ชฝ์์ ์ ๊ทผํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, BERT๊ฐ ๋ฌธ๋งฅ์ ๋ํด ์๋ฐฉํฅ์ผ๋ก ๋ ์ ์ดํดํ๊ฒ ๋ง๋ค์ด์ค๋ค.
2-2. Objective: Premutation Language Modeling
์์์ ๋น๊ตํ๋ ๊ฒ์ ๋ฐ๋ฅด๋ฉด, AR language modeling๊ณผ BERT๋ ์๋ก ๋ค๋ฅธ ๊ณณ์์์ ๊ทธ๋ค๋ง์ ์ ๋ํฌํ ์ฅ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ฌ๊ธฐ์ ์์ฐ์ค๋ฝ๊ฒ ๋๋ ์ง๋ฌธ์ ์ด ๋์ ์ ์ฝ์ ์ ์ธํ๊ณ ์ฅ์ ๋ง์ ๊ฐ์ง๊ณ ์ค๋ ๋ฐฉ๋ฒ์ ์์๊น์ด๋ค.
orderless NADE์์ ์์ด๋์ด๋ฅผ ๊ฐ์ง๊ณ ์์, ์ด ๋ ผ๋ฌธ์์๋ AR model์ ์ฅ์ ์ ๊ฐ์ง ๋ฟ๋ง ์๋๋ผ, ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ์๋ฐฉํฅ์ผ๋ก ์ดํดํ ์ ์๋๋ก ํด์ฃผ๋ ์์ด language modeling์ ์ ์ํ์๋ค. ํนํ, ๊ธธ์ด๊ฐ T์ธ sequence $\mathbf{x}$์ ๋ํด, autoregressive factorization์ ์ํ $T!$ ๊ฐ์ ์๋ก ๋ค๋ฅธ ์ ํจํ ์์๊ฐ ์๋ค. ์ง๊ด์ ์ผ๋ก, ๋ง์ฝ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ค์ด ๋ชจ๋ ๋ถํด ์ฐจ์์์ ๊ณต์ ๋๋ ๊ฒฝ์ฐ, ์์์ ํด๋ณด๋ฉด, ๋ชจ๋ธ์ ์ ๋ฐฉํฅ์ ๋ชจ๋ ์์น๋ก๋ถํฐ ์ ๋ณด๋ฅผ ๋ชจ์์ ํ์ตํ ์ ์์ ๊ฒ์ด๋ค.
์ด ์์ด๋์ด๋ฅผ ๊ณต์ํํด๋ณด๋ฉด, $Z_{T}$๋ ๊ธธ์ด๊ฐ T์ธ ์ธ๋ฑ์ค ์ํ์ค $[1,2,...,T]$์ ๋ชจ๋ ๊ฐ๋ฅํ ์์ด ์ธํธ๊ฐ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ $z_{t}$์ $\mathbf{z}_{<t}$๋ฅผ ์ฌ์ฉํด์ $t$๋ฒ์งธ ์์์ ์์ด $\mathbf{z}\in Z_{T}$์ ์ฒซ $t-1$๋ฒ์งธ ์์๋ฅผ ํ์ํ์๋ค. ๊ทธ ๋ค์์, ๋ ผ๋ฌธ์์ ์ ์๋ ์์ด language modeling์ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ ์ ์๋ค.
๋ณธ์ง์ ์ผ๋ก, text sequence $\mathbf{x}$์ ๋ํด, ๋ ผ๋ฌธ์์๋ factorization ์์ $\mathbf{z}$๋ฅผ ํ ๋ฒ์ ์ํ๋งํ๊ณ ๊ฐ๋ฅ๋ $p_{\Theta }(x)$๋ฅผ factorization ์์์ ๋ฐ๋ผ ๋ถํดํ์๋ค. ๊ทธ๋์ ๋๊ฐ์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ $\Theta$๋ ํ๋ จ ์ค์ ๋ชจ๋ factorization ์์์์ ๊ณต์ ๋์๋ค. ์์๋๋ก, $x_{t}$๋ ์ํ์ค์์ ๊ฐ๋ฅํ ๋ชจ๋ ์์ $x_{i} \neq x_{t}$๋ฅผ ๋ณด์์ผ๋ฏ๋ก, ์๋ฐฉํฅ์ผ๋ก ๋ฌธ๋งฅ์ ์ดํดํ ์ ์๋ค. ๊ฒ๋ค๊ฐ, ์ด ๋ฐฉ๋ฒ์ด AR ๊ตฌ์กฐ์ ๋ง๋ ๊ฒ์ฒ๋ผ, ์ด๊ฒ์ ์์ฐ์ ์ผ๋ก ๋ ๋ฆฝ์ ์ถ์ ์ ํผํ๊ณ , pretrain-finetune ๋ถ์ผ์น๋ฅผ ํผํ๋ค.
Remark on Permutation
์ ์๋ ๋ฐฉ๋ฒ์ sequence order๊ฐ ์๋ factorization order๋ก ์์ด ๋ฐฐ์นํ๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ sequence order๋ฅผ ์ ์งํ๊ณ , ๊ธฐ์กด์ ์ํ์ค์ ์์ํ๋ positional encoding์ ์ฌ์ฉํ๊ณ , factorization order์ ์์ด์ ์ป๊ฒ ํ๊ธฐ ์ํ ์ ์ ํ Transformer์ attention mask์ ์์กดํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ํ์ด ํ์์ ์ด๋ผ๊ณ ์ฃผ์ฅํ๋๋ฐ, ์๋ํ๋ฉด ๋ชจ๋ธ์ด fine-tuning ์ค์ ์ค์ง natural order์ text sequence๋ง ๋ง๋๊ธฐ ๋๋ฌธ์ด๋ค.
2-3. Architecture: Two-Stream Self-Attention for Target-Aware Representations
์์ด language modeling์๋ ์ํ๋ ํน์ฑ์ด ์์ง๋ง, ๊ธฐ์กด์ Transformer์ parameterization์ ์ด์ฉํ ์์งํ ์์ฉ์ ์๋ํ์ง ์์๋ค. ๋ฌธ์ ๋ฅผ ์ดํด๋ณด๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ Softmax ๊ณต์์ธ $p_{\Theta }(X_{z_{t}}=x|\mathbf{x}_{\mathbf{z}_{<t}})=\frac{exp(e(x)^{\top }h_{\Theta }(\mathbf{x}_{\mathbf{z}_{<t}}))}{\sum_{x'}^{}exp(e(x^{'})^{\top }g_{\Theta }(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}))}$์ ์ฌ์ฉํด์ next-token ๋ถํฌ์ธ $p_{\Theta }(X_{z_{t}}|\mathbf{x}_{\mathbf{z}_{<t}})$๋ฅผ ๋งค๊ฐ ๋ณ์ํํ๋ค๊ณ ๊ฐ์ ํ๋ค. ์ฌ๊ธฐ์ $h_{\Theta }(\mathbf{x}_{\mathbf{z}_{<t}})$๋ ๊ณต์ ๋ Transformer network์ ์ ์ ํ ๋ง์คํน์ ๊ฑฐ์น ํ์ ์์ฑ๋ $\mathbf{x}_{\mathbf{z}_{<t}}$์ hidden representation์ ๋ํ๋ธ๋ค. ์ฌ๊ธฐ์ representation $h_{\Theta}(\mathbf{x}_{\mathbf{z}_{<t}})$๋ ์์ธกํ ์์น ์ฆ, $z_{t}$์ ๊ฐ์ ์์กดํ์ง ์๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ ์ฉํ representation์ ๋ฐฐ์ธ ์ ์๋ target position์ ๋ํด ๊ฐ์์น ์๊ณ ๋๊ฐ์ ๋ถํฌ๊ฐ ์์ธก๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๋ค์ ํ ํฐ์ ๋ถํฌ๋ฅผ target position ์ธ์์ผ๋ก re-parameterizeํ ๊ฒ์ ์ ์ํ์๋ค.
์ฌ๊ธฐ์ $g_{\Theta}(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t})$๋ target position $z_{t}$๋ฅผ ์ถ๊ฐ์ ์ธ ์ ๋ ฅ์ผ๋ก ๊ฐ์ง๋ ์๋ก์ด ์ ํ์ representation์ ๋ํ๋ธ๋ค.
Two-Stream Self-Attention
target-aware representation์ ์์ด๋์ด๋ target ์์ธก์์ ๋ชจํธ์ฑ์ ์ ๊ฑฐํ์ง๋ง, $g_{\Theta}(\mathbf{x}_{\textbf{z}_{<t}}, z_{t})$๋ฅผ ๊ณต์ํํ๋ ๊ฒ์ ์ฌ์ํ ๋ฌธ์ ๋ก ๋จ์์๋ค. ๋ค๋ฅธ ๊ฐ๋ฅํ ๊ฒ๋ค ์ค์, ๋ ผ๋ฌธ์์๋ target position $z_{t}$์์ '์์' position $z_{t}$์ ์์กดํด์ attention์ ํตํด ๋ฌธ๋งฅ $\mathbf{x}_{\mathbf{z}_{<t}}$์ผ๋ก๋ถํฐ ์ ๋ณด๋ฅผ ๋ชจ์ผ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค. ์ด parameterization์ ์งํํ๊ธฐ ์ํด์ ๋ค์์ ๋ ๊ฐ์ง ์กฐ๊ฑด์ด ํ์ํ๋ฐ, ์ด ๋์ ๊ธฐ์กด์ Transformer architecture์์๋ ๋ชจ์๋๋ ๊ฐ๋ ์ด๋ค. ์ฒซ ๋ฒ์งธ, ์ค์ง position $z_{t}$๋ง์ ์ฌ์ฉํด์ ํ ํฐ $x_{z_{t}}$์ ์์ธกํ๋ ค๋ฉด $g_{\Theta }(\mathbf{x}_{\textbf{z}_{<t}}, z_{t})$๋ $x_{z_{t}}$๊ฐ ์๋ position $z_{t}$๋ง ์ฌ์ฉํด์ผ ํ๋ค. ๋ง์ฝ ๊ทธ๋ ์ง ์๋๋ค๋ฉด, ๋ฐฉ๋ฒ์ด ๋๋ฌด ์ฌ์ํด์ง๋ค. ๋ ๋ฒ์งธ, $j>t$์ ํจ๊ป ๋ค๋ฅธ ํ ํฐ $x_{z_{j}}$์ ์์ธกํ๋ ค๋ฉด $g_{\Theta }(\mathbf{x}_{\textbf{z}_{<t}}, z_{t})$๋ ๋ชจ๋ ๋ฌธ๋งฅ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด content $x_{z_{t}}$ ๋ํ ์ธ์ฝ๋ํด์ผํ๋ค. ์ด๋ฌํ ๋ชจ์์ ํด๊ฒฐํ๊ธฐ ์ํด์, ๋ ผ๋ฌธ์์๋ ํ ๊ฐ์ hidden representation์ ์ฌ์ฉํ๊ธฐ๋ณด๋ค๋ ๋ ๊ฐ์ ์ธํธ์ hidden representation์ ์ฌ์ฉํ ๊ฒ์ ์ ์ํ์๋ค.
- content representation์ธ $h_{\Theta }(\textbf{x}_{\textbf{z}_{\leq t}})$ ๋๋ ์ถ์ฝํ์ธ $h_{z_{t}}$๋ Transformer์ hidden state์ ๋น์ทํ ์ญํ ์ ํ๋ค. ์ด representation์ ๋ฌธ๋งฅ $x_{z_{t}}$์ ์๊ธฐ ์์ ์ ํจ๊ป ์ธ์ฝ๋ํ๋ค.
- query representation $g_{\Theta }(\mathbf{x}_{\textbf{z}_{<t}},z_{t})$ ๋๋ ์ถ์ฝํ์ธ $g_{z_{t}}$๋ ์ค์ง ๋ฌธ๋งฅ์ ์ ๋ณด $\textbf{x}_{\textbf{z}_{<t}}$์ position $z_{t}$์ ๋ํด์๋ง ์ ๊ทผํ๊ณ , content $x_{z_{t}}$์ ๋ํด์๋ ์ ๊ทผํ์ง ์๋๋ค.
์ฒซ ๋ฒ์งธ query stream์ ํ๋ จ ๊ฐ๋ฅํ ๋ฒกํฐ์ธ $g_{i}^{(0)}=w$์ผ๋ก ์์๋์ง๋ง, content stream์ ํด๋น ๋จ์ด์ ์๋ฒ ๋ฉ์ธ $h_{i}^{(0)}=e(x_{i})$๋ก ์ ํด์ง๊ฒ ๋๋ค. ๊ฐ๊ฐ์ self-attention ๊ณ์ธต์ธ $m=1,...,M$์ ๋ํด representation์ two streams๋๋ค์๊ณผ ๊ฐ์ ๊ณต์ ๋ ํ๋ผ๋ฏธํฐ ์ธํธ์ ํจ๊ป ๊ฐ๋ต์ ์ผ๋ก ์ ๋ฐ์ดํธ๋๋ค. ์ด ๊ณผ์ ์ ๊ทธ๋ฆผ 1์ a์ b์ ์ค๋ช ๋์ด ์๋ค.
์ฌ๊ธฐ์ Q, K, V๋ ๊ฐ๊ฐ attention์์์ ์ฟผ๋ฆฌ, ํค, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ๋ํ๋ธ๋ค. content representation์ update rule์ ๊ธฐ์กด์ self-attention๊ณผ ๋์ผํด์, finetuning ์ค์, ๋ ผ๋ฌธ์์๋ ๊ฐ๋จํ๊ฒ query stream์ dropํ๊ณ , ๋ณดํต์ Transformer-XL์์ ํ๋ ๊ฒ์ฒ๋ผ content stream์ ์ฌ์ฉํ์๋ค. ๋ง์นจ๋ด, ๋ชจ๋ธ์ ์์ ์์ 4๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํ, ๋ง์ง๋ง layer์ query representation์ธ $g_{z_{t}}^{(M)}$๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
Partial Prediction
์์ด language modeling (3)์๋ ์ฌ๋ฌ๊ฐ์ง ์ด์ ์ด ์์ง๋ง, ์์ด์ผ๋ก ์ธํด ํจ์ฌ ๋ ์ด๋ ค์ด ์ต์ ํ ๋ฌธ์ ์ด๋ฉฐ, ์๋น ์คํ์์ ์๋ ด์ด ๋๋ ค์ง๋ค. ์ต์ ํ์ ์ด๋ ค์์ ์ค์ด๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ factorization order์ ๊ฐ์ฅ ์ต๊ทผ์ ํ ํฐ๋ง์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ์ ํํ๋ค. ๊ณต์์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ $\textbf{z}$๋ฅผ non-target subsequence์ธ $\textbf{z}_{\leq c}$์ target subsequence $\textbf{z}_{>c}$๋ก ๋ถ๋ฆฌํ์๋ค. ์ฌ๊ธฐ์ $c$๋ ์๋ฅด๋ ์ง์ ์ด๋ค. ๋ชฉํ๋ non-target subsequence์ ์กฐ์ ๋ target sequence์ ๋ก๊ทธ ์ ํจ์ฑ์ ์ต๋ํํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ $\textbf{z}_{>c}$๋ target์ ๋ฐ๋ผ์ ์ ํ๋๋๋ฐ, ์๋ํ๋ฉด ์ด๊ฒ์ ์ฃผ์ด์ง ํ์ฌ์ factorization order $\textbf{z}$์ ๊ฐ์ฅ ๊ธด ๋ฌธ๋งฅ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ $K$๋ ๋ค์๊ณผ ๊ฐ์ด ์ฌ์ฉ๋๋๋ฐ, 1 /$K$์ ํ ํฐ๋ค์ด ์์ธก์ ์ํด ์ ํ๋๋ค. ์ด K๋ $|\textbf{z}| / (|\textbf{z}|-c)$์ผ๋ก ๊ทผ์ฌ๋๋ค. ์ ํ๋์ง ์์ ํ ํฐ๋ค์ ๋ํด, ์ด๋ค์ query representation์ ์๋์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋ผ๊ธฐ ์ํด ๊ณ์ฐ๋ ํ์๊ฐ ์๋ค.
2-4. Incorporating Ideas from Transformer-XL
๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ AR framework์ ์๋ง๊ธฐ ๋๋ฌธ์, ๋ ผ๋ฌธ์์๋ SOTA AR language model์ธ Transformer-XL์ ๋ชจ๋ธ์ pretraining framework์ ํจ๊ป ์ฌ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ Transformer-XL์ ๋ ์ค์ํ ๋ฐฉ๋ฒ์ธ relative positional encoding๊ณผ segment recurrence mechanism์ ํตํฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ์ํ์ค์ ๊ธฐ๋ฐ์ ๋ relative positional encoding์ธ straightforward๋ฅผ ์ ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด์ ๋ ผ๋ฌธ์์๋ recurrence mechanism์ ์ด๋ป๊ฒ ์ ์๋ ์์ด ์ธํ ์ ํตํฉํ ์ง์ ๋ชจ๋ธ์ด ์ด์ ์ธ๊ทธ๋จผํธ์ hidden state๋ฅผ ์ฌ์ฌ์ฉํ ์ ์๊ฒ ํ ์ง ๋ ผ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ผ๋ฐ์ฑ์ ์์ง ์๊ณ ๊ธด ์ํ์ค $\textbf{s}$์์ ๊ฐ์ ธ์จ ๋ ๊ฐ์ ์ธ๊ทธ๋จผํธ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์๋ค. ๊ฐ๊ฐ $\tilde{\textbf{x}}=\textbf{s}_{1:T}$์ $\textbf{x}_{T+1:2T}$๊ฐ์ด ๋ง์ด๋ค. ๊ทธ๋์ $\tilde{\textbf{z}}$์ $\textbf{z}$๋ ๊ฐ๊ฐ ์์ด $[1\cdot \cdot \cdot T]$์ $[T+1 \cdot \cdot \cdot 2T]$๊ฐ ๋๋ค. ๊ทธ ๋ค์์, ์์ด $\tilde{\textbf{z}}$์ ๊ธฐ๋ฐ์ ๋ฌ์ ์ฒซ ๋ฒ์งธ ์ธ๊ทธ๋จผํธ๋ฅผ ์งํํ๊ณ , ๊ฐ layer $m$์ ๋ํด ์ป์ด์ง content representation $\tilde{\mathbf{h}}^{(m)}$์ ์บ์ํด๋๋ค. ๊ทธ ๋ค์์, ๋ค์ ์ธ๊ทธ๋จผํธ $\textbf{x}$๋ฅผ ์ํด, attention์ ๋ฉ๋ชจ๋ฆฌ์ ํจ๊ป ์ ๋ฐ์ดํธ ๋๋๋ฐ ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.
์ฌ๊ธฐ์ $[.,.]$์ ์ํ์ค ์ฐจ์์ ๋ฐ๋ผ ์ฐ๊ฒฐํ๋ ๊ฒ์ ์๋ฏธํ๋ค. positional encdoing์ ์ค์ง ๊ธฐ์กด ์ํ์ค์ ์ค์ position์๋ง ์์กดํ๋ค. ๋ฐ๋ผ์, ์์ attention update๋ representation $\tilde{\textbf{h}}^{(m)}$๊ฐ ์ป์ด์ง๋ฉด $\tilde{\textbf{z}}$์ ๋ฌด๊ดํ๋ค. ์ด๊ฒ์ ์ด์ ์ธ๊ทธ๋จผํธ์ factorization order์ ๋ชจ๋ฅด๊ณ ๋ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์บ์ํ๊ณ ์ฌ์ฌ์ฉํ ์ ์๊ฒ ํด์ค๋ค. ๊ธฐ๋๋ก๋, ๋ชจ๋ธ์ด ์ต๊ทผ์ ์ธ๊ทธ๋จผํธ์ ์ ๋ฐ์ ์ธ factorization order์ memory๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ํ์ตํ ๊ฒ์ด๋ค. query stream๋ ๋๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ณ์ฐ๋ ์ ์๋ค. ๋ง์นจ๋ด, ๊ทธ๋ฆผ 1์ c๋ ์ ์๋ two-stream attention๊ณผ ํจ๊ป ํ๋ ์์ด language modeling์ ๊ฐ์๋ฅผ ๋ณด์ฌ์ค๋ค.
2-5. Modeling Multiple Segments
๋ค์ํ downstream task๋ ๋ค์ค์ ์ ๋ ฅ ์ธ๊ทธ๋จผํธ๋ฅผ ๊ฐ์ง๋ค. ์๋ฅผ ๋ค์ด์ question answering์์ question๊ณผ context paragraph ๋ ๊ฐ์ ์ ๋ ฅ์ด ์ฃผ์ด์ง๋ฏ์ด ๋ง์ด๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ autoregressive framework์์ ์ฌ๋ฌ ์ธ๊ทธ๋จผํธ๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด XLNet์ ์ฌ์ ํ๋ จํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ ผ์ํ์๋ค. pretraining ์๊ธฐ์ BERT์ ๊ฐ์ด ๋๋คํ๊ฒ ๋ ๊ฐ์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ํ๋งํ๊ณ , ๋ ์ธ๊ทธ๋จผํธ๋ฅผ ํ๋์ ์ํ์ค๋ก ํฉ์น ๋ค์ ๋ค๋ฃธ์ผ๋ก์จ ์์ด language modeling์ ์งํํ์๋ค. ๋ชจ๋ธ์ ์ค์ง ๊ฐ์ ๋ฌธ๋งฅ์ ์ํด ์๋ ๋ฉ๋ชจ๋ฆฌ๋ง์ ์ฌ์ฌ์ฉํ๋ค. ํนํ, XLNet์ ์ ๋ ฅ์ BERT์ ๊ฐ์ด [CLS, A, SEP, B, SEP]์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ฌ๊ธฐ์ "SEP"์ "CLS"๋ ๋ ๊ฐ์ ํน๋ณํ ์ฌ๋ณผ์ด๊ณ , "A"์ "B"๋ ๋ ๊ฐ์ ์ธ๊ทธ๋จผํธ์ด๋ค. XLNet ๋ํ two-segment ๋ฐ์ดํฐ ํ์์ ์ด์ฉํ์ง๋ง, XLNet-Large๋ ablation study์์ ์ผ๊ด๋ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์ง ์๊ธฐ ๋๋ฌธ์ next sentence prediction์ ์ฌ์ฉํ์ง ์์๋ค.
Relative Segment Encodings
๊ตฌ์กฐํ์ ์ผ๋ก BERT์ ๋ค๋ฅธ ์ ์ BERT๋ absolute segment embedding์ word embedding์ ๊ฐ position์ ์ถ๊ฐํ๋๋ฐ, XLNet์ Transformer-XL์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํ relative encoding ์์ด๋์ด๋ฅผ ํ์ฅ์์ผฐ๋ค. ์ํ์ค์ position $i$์ $j$ ์์ด ์ฃผ์ด์ก์ ๋, ๋ง์ฝ $i$์ $j$๊ฐ ๋์ผํ ์ธ๊ทธ๋จผํธ์์ ๋์๋ค๋ฉด, ์ธ๊ทธ๋จผํธ ์ธ์ฝ๋ฉ $\textbf{s}_{ij} = \textbf{s}_{+}$ ๋๋ $\textbf{s}_{ij} = \textbf{s}_{-}$์ ์ฌ์ฉํ์๋ค. ์ฌ๊ธฐ์ $\textbf{s}_{+}$์ $\textbf{s}_{-}$๋ ๊ฐ attention head์ ๋ํ ํ์ต ๊ฐ๋ฅํ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ด๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, ์ด ๋ชจ๋ธ์ ์ค์ง ๋ position์ด ๋์ผํ ์ธ๊ทธ๋จผํธ ์ด๋ด์ ์กด์ฌํ๋์ง ์ฌ๋ถ๋ง ๊ณ ๋ คํ๋ค. ํน์ ์ธ๊ทธ๋จผํธ์ ์์น๋ ๊ณ ๋ คํ์ง ์๋๋ค. ์ด๊ฒ์ relative positional encoding์ ํต์ฌ ์์ด๋์ด์ ์ผ์นํ๋๋ฐ ์ฆ, ์์น ๊ฐ์ ๊ด๊ณ๋ง ๋ชจ๋ธ๋งํ๋ค. $i$๊ฐ $j$๋ฅผ ์ฐธ์กฐํ ๋, ์ธ๊ทธ๋จผํธ ์ธ์ฝ๋ฉ $\textbf{s}_{ij}$๋ attention ๊ฐ์ค์น $a_{ij}=(\textbf{q}_{i}+\textbf{b})^{\top}\textbf{s}_{ij}$๋ฅผ ๊ณ์ฐํ๋๋ฐ ์ฌ์ฉ๋๋ค. ์ฌ๊ธฐ์ $\textbf{q}_{i}$๋ ๊ธฐ์กด์ attention ์ฐ์ฐ์์์ฒ๋ผ query ๋ฒกํฐ์ด๊ณ , $\textbf{b}$๋ ํ์ต ๊ฐ๋ฅํ head-specificํ bias ๋ฒกํฐ์ด๋ค. ๋ง์นจ๋ด, ๊ฐ $a_{ij}$๋ ๋ณดํต์ attention ๊ฐ์ค์น์ ๋ํด์ง๋ค. relative segment encoding์ ์ฌ์ฉํ๋ ๋ฐ์๋ ๋ ๊ฐ์ง ์ฅ์ ์ด ์กด์ฌํ๋ค. ์ฒซ ๋ฒ์งธ๋, relative encoding์ inductive bias๊ฐ ์ผ๋ฐํ๋ฅผ ํฅ์์ํจ๋ค๋ ์ ์ด๋ค. ๋ ๋ฒ์งธ๋, absolute segment encoding์ ์ฌ์ฉํด์๋ ๋ถ๊ฐ๋ฅํ ๋ ๊ฐ ์ด์์ ์ ๋ ฅ ์ธ๊ทธ๋จผํธ๋ฅผ ๊ฐ์ง๋ task์ ๋ํด finetuning์ ํ ์ ์๋ ๊ธฐํ๋ฅผ ์ด์ด์ค๋ค.
2-6. Discussion
์์ ์ค๋ช ํ ์์ 2์ ์์ 5๋ฅผ ๋น๊ตํด๋ณด๋ฉด, BERT์ XLNet ๋ชจ๋๋ partial prediction์ ์ํํ๋ค ์ฆ, ์ํ์ค์์ token์ subset๋ง์ ์์ธกํ๋ค. ์ด๊ฒ์ BERT์๊ฒ๋ ํ์์ ์ธ ์ ํ์ธ๋ฐ, ์๋ํ๋ฉด ๋ง์ฝ ๋ชจ๋ ํ ํฐ๋ค์ด ๋ง์คํน๋๋ฉด, ์ด๋ ํ ์๋ฏธ์๋ ์์ธก์ ํ ์๊ฐ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ถ๊ฐ์ ์ผ๋ก, BERT์ XLNet ๋ชจ๋์๊ฒ์ partial prediction์ ์ถฉ๋ถํ ๋ฌธ๋งฅ๊ณผ ํจ๊ป ์ค์ง ํ ํฐ์ ์์ธกํจ์ผ๋ก์จ optimization์ ์ด๋ ค์์ ์ค์ฌ์ฃผ๋ ์ญํ ์ ํ๋ค. ํ์ง๋ง, 2-1์์ ๋ ผ์๋ ๋ ๋ฆฝ์ ์ถ์ ์ target ๊ฐ์ ์ข ์์ฑ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ์ข ์์ฑ์ ๋นํ์ฑํ ํ๋ค.
์ฐจ์ด์ ์ ๋ ์ ์ดํดํ๊ธฐ ์ํด, ๋๋ ทํ ์์์ธ [New, York, is, a , city]๋ฅผ ๋ค์ด๋ณด์. BERT์ XLNet ๋ชจ๋ ๋ ๊ฐ์ ํ ํฐ [New, York]๋ฅผ ์์ธก ํ์ผ์ผ๋ก ์ ํํ๊ณ , $log$ $p$(New York | is a city)๋ฅผ ์ต๋ํํ๋ค๊ณ ๊ฐ์ ํด๋ณด์. ๋ํ XLNet์ด factorization order [is, a , city, New, York]๋ฅผ ์ํ๋งํ๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์ด ๊ฒฝ์ฐ์๋, BERT์ XLNet ๊ฐ๊ฐ์ด ๋ค์๊ณผ ๊ฐ์ด ๊ฐ์ํ๋ค.
XLNet์ (New, York)์ ์ ์ฌ์ด์์ ์์กด์ฑ์ ์์๋ผ ์ ์๋ค. ์ด๋ฌํ ์ ์ด BERT์์๋ ์๋ต๋์ด ์๋ค. ๋น๋ก ์ด ์์์์ BERT๋ ์ด๋ ํ ์์กด ์ (New, city)๊ณผ (York, city)๋ฅผ ๋ฐฐ์ฐ๊ธด ํ์ง๋ง, XLNet์ ๋์ผํ target์ด ์ฃผ์ด์ง๋ฉด ํญ์ ๋ ๋ง์ ์ข ์์ฑ ์์ ํ์ตํ๊ณ "denser"ํ ํจ๊ณผ์ ์ธ ํ๋ จ ์ ํธ๋ฅผ ํฌํจํ๋ค๋ ๊ฒ์ ๋ถ๋ช ํ๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/1906.08237
XLNet: Generalized Autoregressive Pretraining for Language Understanding
With the capability of modeling bidirectional contexts, denoising autoencoding based pretraining like BERT achieves better performance than pretraining approaches based on autoregressive language modeling. However, relying on corrupting the input with mask
arxiv.org
https://www.youtube.com/watch?v=iIk1_QfBwTw
https://www.youtube.com/watch?v=koj9BKiu1rU