The overview of this paper
Transformer ๊ธฐ๋ฐ์ BERT ๊ฐ์ ๋ชจ๋ธ์ NLP ๋ถ์ผ์์ ๊ฐ์ฅ ์ฑ๊ณตํ ๋ชจ๋ธ ์ค ํ๋์ด๋ค. ํ์ง๋ง ๋ถํํ๊ฒ๋, Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๊ฐ์ฅ ํฐ ์ฝ์ ์ full attention ๋ฉ์ปค๋์ฆ ๋๋ฌธ์ sequence์ ๊ธธ์ด์ ๋ฐ๋ผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๊ณฑ์ ๋ก ๋์ด๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ quadratic์ linear๋ก ์ค์ธ sparse attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ Big Bird๋ฅผ ์ ์ํ์๋ค. ๋
ผ๋ฌธ์์๋ BigBird๊ฐ sequence ํจ์์ ๋ฒ์ฉ์ ์ธ ๊ทผ์ฌ์น๊ฐ ๋๊ณ Turing completeํ๋ค๊ณ ๋งํ๋ค. ๊ทธ๋ฆฌ๊ณ BigBird๋ full attention model์ quadratic ํน์ฑ์ ๋ณด์กดํ์๋ค. ๋
ผ๋ฌธ์ ์ด๋ก ์ ๋ถ์์์๋ sparse attention ๋ฉ์ปค๋์ฆ์ ๋ถ๋ถ์ผ๋ก์จ ์ ์ฒด sequence๋ฅผ ์ฐธ์กฐํ๋ $O(1)$ global token์ ๊ฐ์ง๋ ๊ฒ์ ํํ์ ๋ฐํ๋ค. ์ ์๋ sparse attention์ ์ด์ ์ ๋ชจ๋ธ๋ค๋ณด๋ค 8๋ฐฐ ์ ๋ ๋ ๊ธด sequence๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค. BigBird๊ฐ longer context๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ์ ์ป์ ๊ฒฐ๊ณผ๋ก ๋ค์ํ NLP task์ ๋ํด ์๋นํ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. BigBird Architecture
2-1. Random Attention
2-2. Sliding Window Attention
2-3. Global Attention
2-4. BigBird Attention
3. Theoretical Results about Sparse Attention Mechanism
4. Experiments
1. Introduction
Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ BERT๋ ์ฌ๋ฌ NLP task์์ ์๋นํ ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. BERT์ versatility์ robustness๋ Transformer๊ฐ ๋ค์ํ task์ ์ ์ฉ๋ ์ ์์๋ ๊ฐ์ฅ ํฐ ์ด์ ์ค ํ๋์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด BERT๋ ์ด์ ์ LSTM ๊ฐ์ sequence model์ ์๋นํ ์ํํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. Transformer์์ ์ด๋ค์ง ๊ฐ์ฅ ํ๊ธฐ์ ์ธ ๋ฐ์ ์ค ํ๋๋ self-attention์ด๋ค. self-attention์ ์
๋ ฅ ์ํ์ค์ ๊ฐ ํ ํฐ์ ๋ํด ๋ณ๋ ฌ๋ก ํ๊ฐ๋ ์ ์๊ณ , LSTM ๊ฐ์ ๋ฐ๋ณต ์ ๊ฒฝ๋ง์ ์กด์ฌํ๋ sequential dependency๋ฅผ ์ ๊ฑฐํ์๋ค. ์ด๋ฌํ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ Transformer๊ฐ ํ๋ ํ๋์จ์ด ๊ฐ์๊ธฐ๋ค์ ํ ํ์๋ฅผ leverageํจ์ผ๋ก์จ, NLP model์ด ์ ๋ก ์๋ ๊ท๋ชจ์ ๋ฐ์ดํฐ์
์์ ํ์ต์ ํ ์ ์๋๋ก ํด์ค๋ค. ๋ชจ๋ธ์ ์ด๋ ๊ฒ ํฐ ๋ฐ์ดํฐ์์ pre-training์ ์งํํ๊ณ ๊ทธ ์ง์์ downstream task์ ์ ์ฉํ๋ ๋ฐฉ์์ผ๋ก ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃฉํ ์ ์์๋ค.
self-attention ๋ฉ์ปค๋์ฆ์ RNN์ ์ฝ์ ๋ค์ input sequence์ ํ ํฐ๋ค์ด sequence์ ๋ค๋ฅธ ํ ํฐ๋ค์ ๋
๋ฆฝ์ ์ผ๋ก ๋ณผ ์ ์๊ฒ ํด์ค์ผ๋ก์จ ๊ทน๋ณตํ์๋ค. ์ด๋ฌํ ๋์์ธ ์ ํ์ ๋ช ๊ฐ์ ํฅ๋ฏธ๋ก์ด ์ํฅ์ ๊ฐ์ง๊ณ ์๋ค. ํนํ, full self-attention์ sequence length์ ๋ํด ๊ณฑ์ ์ ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๊ตฌํ๋ค. ๋
ผ๋ฌธ์์๋ corpus๊ฐ ์ปค์ง ์ ์์ง๋ง, sequence length๋ context๋ฅผ ์ฌ๋ฌ ์์ฉ์ ์ ๊ณตํ๋ ๊ฒ์๋ ๋งค์ฐ ์ ํ์ด ์๋ค๊ณ ํ์๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ํ์ฌ์ ํ๋์จ์ด์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ฉด input sequence์ length๊ฐ 512 token์ผ๋ก ์กฐ์ ๋์ด์ผ๋ง ํ๋ค. ์ด๋ฌํ ์ ์ larger context๋ฅผ ํ์๋ก ํ๋ task์ ๋ํ ์ง์ ์ ์ธ ์์ฉ์ ๊ฐ์์ํจ๋ค.
ํ์ง๋ง, self-attention๊ณผ Transformer๋ ๋งค์ฐ ์ ์ฉํ๋ค๋ ๊ฒ์ ์๊ณ ์๋ค. ๊ทธ๋ ๋ค๋ฉด self-attention model์ ์ด๋ค ๋ฉด์ด ์ฑ๋ฅ์ ํ์์ ์ผ๊น? ๊ทธ๋ฆฌ๊ณ Transformer์ ๋น์ทํ ๋ชจ๋ธ์ ํํ์ฑ์ ๋ํด์ ์ด๋ป๊ฒ ๋งํ ์ ์์๊น? ์ด ์ง๋ฌธ์ ๋ํ ๋๋ต์ ์ ์๋ self-attention ๋ฉ์ปค๋์ฆ์ด RNN๋งํผ ํจ๊ณผ์ ์ด๋ผ๋ฉด ๋์์ธ์ผ๋ก๋ถํฐ ๋ช
ํํ ๋๋ต์ ๋ด๋์ ์ ์๋ค. ์๋ฅผ ๋ค์ด, self-attention์ด ์์ด ๋๋ฑ์ฒ๋ผ sequence order๋ฅผ ๋ฐ๋ฅด์ง ์์ผ๋ฉด ๋ง์ด๋ค. ์ด๋ฌํ ๊ฑฑ์ ์ Transformer๊ฐ ์์ถ๋ ๋๋ฉ์ธ์์ ๋ชจ๋ ์ฐ์๋ seq2seq ํจ์๋ฅผ ์บก์ฒํ ์ ์์ ๋งํผ ํํ์ ์ด๋ผ๋ ์ ์์ ํด๊ฒฐ๋์๋ค. ํํธ, full Transformer๋ Turing Completeํ๋ค๋ ๊ฒ๋ ์ฆ๋ช
๋์๋ค. ์ฌ๊ธฐ์ Turing Complete๋ผ๋ ๊ฒ์ Turing test๋ฅผ ํต๊ณผํ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์์ฐ์ค๋ฝ๊ฒ ๋ ๊ฐ์ ๊ถ๊ธ์ฆ์ด ๋ ์ค๋ฅผ ๊ฒ์ด๋ค.
- ์ ์ inner product๋ฅผ ์ฌ์ฉํด์ gully quadratic self-attention์ ํํ์ ์ฑ์ทจํ ์ ์์๊น?
- sparse attention ๋ฉ์ปค๋์ฆ์ด ๊ธฐ์กด ๋คํธ์ํฌ์ ํํ์ฑ ๋ฐ ์ ์ฐ์ฑ์ ๋ณด์กดํ ์ ์์๊น?
์ด ๋
ผ๋ฌธ์์๋ ์์ ๋ ๊ฐ์ ์ง๋ฌธ์ ํด๊ฒฐํ๊ณ longet context๋ฅผ ํ์๋ก ํ๋ task์์ ์ฑ๋ฅ์ ํฅ์์ํค๋ sparse attention ๋ฉ์ปค๋์ฆ์ ์ ๊ณตํ์๋ค. token ์์ ๋ฐ๋ผ ์ ํ์ ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋ attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ BigBIrd๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ๋ฐํ์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๊ทธ๋ํ sparsification method๋ก๋ถํฐ ์๊ฐ์ ๋ฐ๊ณ , ์ ์๋ attention pattern์ ํ์ฑํ๊ธฐ ์ํด full-attention์ด ์ํ๋ ๋ Transformer์ ํํ๋ ฅ์ ๋ํ ์ฆ๊ฑฐ๊ฐ ์ด๋์์ ๋ฌด๋์ง๋์ง ์ดํดํ์๋ค. ์ด๋ฌํ ์ดํด๋ BigBird๋ฅผ ๊ฐ๋ฐํ ์ ์๋๋ก ๋์์คฌ๊ณ , ์ด๋ ์ด๋ ์ด๋ก ์ ์ผ๋ก ํํ๋ ฅ์ด ํ๋ถํ๊ณ ๊ฒฝํ์ ์ผ๋ก๋ ์ ์ฉํ๋ค. BigBIrd๋ ๋ค์ 3๊ฐ์ ๋ฉ์ธ ํํธ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
- $g$ global token ์ธํธ๊ฐ sequence์ ๋ชจ๋ ๋ถ๋ถ์ ์ฐธ์กฐ
- ๋ชจ๋ token์ $w$ local ๊ทผ์ ํ ํฐ์ ์ธํธ๋ฅผ ์ฐธ์กฐ
- ๋ชจ๋ token์ $r$ ๋จ๋ ํ ํฐ์ ์ธํธ๋ฅผ ์ฐธ์กฐ
์ด๋ฌํ ๋ฐฉ๋ฒ์ attention ๋ฉ์ปค๋์ฆ์ด ๋์ฑ ๊ธด$($8๋ฐฐ$)$ sequence length๋ก scaling ๋ ์ ์๊ฒ ์ด๋์ด์ฃผ์๋ค.
์ด ๋
ผ๋ฌธ์ contribution์ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- full Transformer์ ์ด๋ก ์ ํน์ฑ์ ๋ชจ๋ ๋ง์กฑ. ์ถ๊ฐ ํ ํฐ์ ์ถ๊ฐํ๋ ๊ฒ์ด ๋ชจ๋ ์ฐ์๋๋ seq2seq ํจ์๋ฅผ ์ค์ง $O(n)$-๋ด์ ์ผ๋ก ํํํ๊ฒ ํ๋ฝ.
- BigBird์ ์ํด ๋ชจ๋ธ๋ง๋ ๋์ด๋ context๋ ์ฌ๋ฌ NLP task์์ ์ด์ ์ ๋ณด์ฌ์ค → SOTA ๋ฌ์ฑ
- attention ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์๋ก์ด ์์ฉ ์๊ฐ. ์ฌ๊ธฐ์ ๊ธด context๋ ์ด์ ์ ๊ฐ์ง.
2. BigBird Architecture
์ด ์น์
์์๋ Transformer์ ๊ฐ ๋ ์ด์ด์์ input sequence $X = (x_1, \cdots, x_n) \in \mathbb{R}^{n \times d}$์์ ๊ตฌ๋๋๋ generalized attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ BigBird์ ๋ํด์ ์ค๋ช
ํ๊ฒ ๋ค. generalized attention ๋ฉ์ปค๋์ฆ์ vertex ์ธํธ๊ฐ $[n] = {1, \cdots, n}$์ธ directed ๊ทธ๋ํ $D$์ ์ํด ๋ฌ์ฌ๋๋ค. arc$($directed ๊ทธ๋ํ์ edge ๋ถ๋ถ$)$ ์ธํธ๋ attention ๋ฉ์ปค๋์ฆ์ด ๊ณ ๋ คํ๋ ๋ด์ ์ธํธ๋ฅผ ํํํ์๋ค. $N(i)$๊ฐ $D$์์ ๋
ธ๋ $i$์ out-neighbors ์ธํธ๋ฅผ ๋ํ๋ด๋๋ก ํ๊ฒ ํ ๋ค์ generalized attention ๋ฉ์ปค๋์ฆ์ $i$ ๋ฒ์งธ ์ถ๋ ฅ ๋ฒกํฐ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
์ฌ๊ธฐ์ $Q_h, K_h : \mathbb{R}^{d} \to \mathbb{R}^{m}$์ ๊ฐ๊ฐ query ํจ์์ key ํจ์์ด๊ณ , $V_h : \mathbb{R}^{d} \to \mathbb{R}^{d}$์ value ํจ์์ด๋ค. $\sigma$๋ scoring ํจ์์ด๊ณ $H$๋ head์ ์๋ฅผ ๋ํ๋ธ๋ค. ๋ํ $X_{N(i)}$๋ ๋ชจ๋ ์
๋ ฅ์ ๋ํด์๊ฐ ์๋๋ผ ์ค์ง stacking ${x_j : j \in N(i)}$์ ์ํด ํ์ฑ๋ ํ๋ ฌ์ ํด๋นํ๋ค. ์ค๋ช
์ ๊ฐํธํ๊ฒ ํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ ๊ทธ๋ํ๊ฐ sparse ์ผ์ง๋ผ๋ ๊ทธ๋ํ $D$์ ์ธ์ ํ๋ ฌ $A$์์ ๊ตฌ๋ํด๋ณผ ๊ฒ์ด๋ค. ์์ธํ ์ค๋ช
ํ๋ฉด, $A \in [0, 1]^{n \times n}, A(i, j)=1$์ผ ๋ query $i$๊ฐ key $j$๋ฅผ ์ฐธ์กฐํ๊ณ ๊ทธ๋ ์ง ์์ผ๋ฉด 0์ด๋ค. ์๋ฅผ ๋ค์ด $A$๊ฐ 1์ ํ๋ ฌ์ผ ๋$($BERT์ฒ๋ผ$)$, ๋ชจ๋ ํ ํฐ์ด ๋ชจ๋ ๋ค๋ฅธ ํ ํฐ์ ์ฐธ์กฐํ๊ธฐ ๋๋ฌธ์ quadratic ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋ค. self-attention์ ์์ ํ ์ฐ๊ฒฐ๋ ๊ทธ๋ํ๋ก ๋ณด๋ ์ด๋ฌํ ๊ด์ ์ ๊ธฐ์กด ๊ทธ๋ํ ์ด๋ก ์ ํ์ฉํ์ฌ ๋ณต์ก์ฑ์ ์ค์ด๋ ๋ฐ ๋์์ด ๋๋ค. self-attention์ quadratice ๋ณต์ก๋๋ฅผ ์ค์ด๋ ๋ฌธ์ ๋ graph sparsification ๋ฌธ์ ๋ก ๋ณผ ์ ์๋ค. ๋๋ค ๊ทธ๋ํ๋ ํ์ฅ์์ด๋ฉฐ ์คํํธ๋ผ ์์ฑ์ ํฌํจํ์ฌ ๋ค์ํ context์์ ์์ ํ ๊ทธ๋ํ๋ฅผ ๊ทผ์ฌํํ ์ ์๋ค๋ ๊ฒ์ ์ ์๋ ค์ ธ ์๋ค. attention ๋ฉ์ปค๋์ฆ์ ๋ํ sparse ๋๋ค ๊ทธ๋ํ๋ ๋
ธ๋ ๊ฐ์ ์์ ํ๊ท path length์ locality notion์ ๊ฐ์ ธ์ผ๋ง ํ๋ค.
2-1. Random Attention
๊ฐ์ฅ ๊ฐ๋จํ ๋๋ค ๊ทธ๋ํ ๊ตฌ์กฐ๋ฅผ ์๊ฐํด๋ณด์. ์ฌ๊ธฐ์ ๊ฐ๊ฐ์ edge๋ ๊ณ ์ ํ๋ฅ ๋ก ๋
๋ฆฝ์ ์ผ๋ก ์ ํ๋๋ค. ๊ฐ query๊ฐ $r$๊ฐ์ ์์์ key, ์ฆ $r$๊ฐ์ ์์๋ก ์ ํ๋ key์ ๋ํด $A(i, ·)=1$์ ๋ํด ์ฐธ์กฐํ๋ sparse attention ์ด๋ค.
2-2. Sliding Window Attention
BigBird์ ํ์์ ์๊ฐ์ ์ค ๋ ๋ฒ์งธ ๊ด์ ์ NLP์์ ๋๋ถ๋ถ์ context๋ ์๋นํ ์์ ์ฐธ์กฐ์ locality๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ด๋ค. BigBird์ ๋์ ์ฐ๊ด์ฑ์ ๊ฐ์ง๊ณ ์๋ ํน์ ๋ชจ๋ธ์ ํ๊ท ์ต๋จ ๊ฑฐ๋ฆฌ ๊ฒฝ๋ก์ locality์ ๊ฒฌํด ๊ฐ์ ์ข์ ๋ฐธ๋ฐ์ค๋ฅผ ๋ฌ์ฑํ์๋ค. ๋ชจ๋ธ์ ์์ฑ ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค. regular ring lattice, $n$ ๋
ธ๋์ $w$ ๊ฐ์ค์น๋ฅผ ์ฐ๊ฒฐํ ๊ทธ๋ํ, ๊ฐ๊ฐ์ ์ฌ์ด๋์ $w/2$๋ฅผ ๋ง๋ค์ด์ context์์ local ๊ตฌ์กฐ๋ฅผ ์บก์ฒํ๋ค.
๋ชจ๋ connection์ ๋๋ค ์๋ธ์
$k_x$๋ ๋๋ค connection์ผ๋ก ๋์ฒดํ์๋ค. ๋๋จธ์ง $(100 - k%)$์ local connection์ ์ ์ง๋๋ค. context์ local ๊ตฌ์กฐ๋ฅผ ์บก์ฒํ๊ธฐ ์ํด sliding window attention์ ์ ์ํด์ ์ฌ์ฉํ๋ค. ๊ทธ๋์ self-attention ์ค์ width๋ $w$์ด๊ณ , location $i$์์ query๋ $i-w/2$ ๋ถํฐ $i+w/2$์ key๋ค์ ์ฐธ์กฐํ๋ค. ๊ธฐํธ๋ก ํํํ๋ฉด $A(i, i-w/2 : i+w/2) = 1$๋ก ๊ทธ๋ฆผ 1์ b์ฒ๋ผ ๋๋ค.
2-3. Global Attention
BigBird์ ๋ง์ง๋ง ์กฐ๊ฐ์ ์คํ์ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ ๋
ผ๋ฌธ์ ์ด๋ก ์ ๋ถ์์์ ์๊ฐ์ ๋ฐ์๋ค. ๋
ผ๋ฌธ์ ์ด๋ก ์ ์ํ์ค์ ๋ชจ๋ ํ ํฐ์ ์ฐธ์กฐํ๋ ํ ํฐ์ธ global token์ ์ค์์ฑ์ ํ์ฉํ์๋ค. ๊ทธ๋ฆผ 1์ c๋ฅผ ์ฐธ๊ณ ํ์ฌ๋ผ. ์ด๋ฌํ global token์ ๋ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ์ ์๋๋ค.
- BigBird-ITC: internal transformer construction$($ITC$)$์์๋ ์กด์ฌํ๋ ํ ํฐ์ globalํ ํด์ ์ ์ฑ ์ํ์ค๋ฅผ ์ฐธ์กฐํ๋๋ก ํด์ค๋ค.
- BigBird-ETC: external transformer construction$($ETC$)$์์ CLS๊ฐ์ ์ถ๊ฐ์ ์ธ ‘global’ ํ ํฐ ์ถ๊ฐํด์ค๋ค. ์ด ํ ํฐ์ ์กด์ฌํ๋ ๋ชจ๋ ํ ํฐ์ ์ฐธ์กฐํ๋ค. ์ด ๋ฐฉ์์ context๋ฅผ ์ ์ฅํ ์ถ๊ฐ์ location์ ์ ๊ณตํด์ค๋ค.
2-4.BigBird Attention
BigBird์ ๋ํ final attention์ ์ด 3๊ฐ์ ํน์ฑ์ ๋ชจ๋ ๊ฐ์ง๊ณ ์๋ค. $($๊ทธ๋ฆผ 1์ d๋ฅผ ์ฐธ๊ณ ํ์ฌ๋ผ$)$ ์ด๋ query๊ฐ $r$ ๊ฐ์ ๋๋คํ key๋ฅผ ์ฐธ์กฐํ๋ค. ๊ฐ๊ฐ์ query๋ location์ ์ข์ฐ ์์ชฝ์ผ๋ก $w/2$์ ํ ํฐ์ ์ฐธ์กฐํ๊ณ $g$ global token์ ์ป๊ฒ ๋๋ค.
3. Theoretical Results about Sparse Attention Mechanism
์ด๋ฒ ์น์
์์๋ sparse attention ๋ฉ์ปค๋์ฆ์ด full-attention๋งํผ ๊ฐ๋ ฅํ๊ณ ํํ๋ ฅ์ด ์ข์ ์ด์ ์ ๋ํด์ ๋ ๊ด์ ์ผ๋ก ๋ณด์ฌ์ฃผ๊ฒ ๋ค.
- sparse attention์ด encoder-only์์ ์ฌ์ฉ๋ ๋ seq2seq ํจ์์ universal approximator๊ฐ ๋๋ค.
- sparse encoder-decoder transformer๋ Turing Completeํ๋ค.
4. Experiments
๋ณธ ํฌ์คํธ์์๋ genomic์ ๊ดํ ๋ถ๋ถ์ ๋ค๋ฃจ์ง ์๊ณ NLP ๋ถ๋ถ๋ง ๋ค๋ฃจ์๋ค.
NLP task๋ฅผ ์ํด longer input sequence๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ํํ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ฅผ ์ํด ๊ธฐ์กด์ MLM์์ ์์ํด์ longer contiguous sequence๋ฅผ ํ์ฉํจ์ผ๋ก์จ ๋ ๋์ contextual representation์ ํ์ตํ ์ ์๋๊ฐ๋ฅผ ํ์ธํ์๋ค. ๋ค์์ผ๋ก longer sequence๋ฅผ ๋ค๋ฃจ๋ ๊ฒ์ด TF-IDF/BM25๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ๋ ๋ง์ ์ฆ๊ฑฐ๋ค์ ๋์ฐพ๊ฒ ํด์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ์ง์ง ์ฆ๊ฑฐ๋ฅผ ์ฌ์ฉํ๋ QA๋ฅผ ์ด์ฉํ์๋ค. ๋ง์ง๋ง์ผ๋ก ์ ๋ณด๊ฐ ์ฒซ 512 ํ ํฐ์ ์์นํด์๋์ง๋ฅผ ์๋ณํ๋ long document classification์ ํํด์ ๊ฑธ์๋ค. ์๋์์๋ sequence length 4096์ ์ฌ์ฉํ๋ BigBird์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ์๋ค. ๊ทธ ๊ณผ์ ์์ sequence length ์ธ์ ์ปดํจํ
์์, ๋ฐฐ์น ํฌ๊ธฐ, ์คํ
ํฌ๊ธฐ ๋ฑ๊ณผ ๊ฐ์ ๋ชจ๋ ์ธํ
์ ๋ฌ๋ฆฌํ์๋ค.
Pretraining & MLM MLM์ ์ด์ฉํ์ฌ BigBird์ base์ large ๋ฒ์ ์ ๋ง๋ค์๋ค. ๋
ผ๋ฌธ์์๋ pre-training์ ํ ๋ 4๊ฐ์ ํ์ค ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์๊ณ , public RoBERTa checkpoint๋ก๋ถํฐ ์์๋์๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด BigBird์ Longformer๊ฐ ํ์ ๋ ๊ธธ์ด์ RoBERTa๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ BigBird-ETC๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋
ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ 16GB์ ๋ฉ๋ชจ๋ฆฌ์ 32-64์ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ์ฌ์ฉํ์๋ค๊ณ ๋งํ์๋ค. ์ด๋ฌํ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ sparse attention์ ํจ์จ์ ์ธ blocking๊ณผ sparsity ๊ตฌ์กฐ ๋๋ถ์ด๋ค.
Question Answering$($QA$)$ ๋
ผ๋ฌธ์์๋ ์ด๋ ค์ด task๋ค์ธ NaturalQ, HotpotQA, TriviQA, WikiHop์ ๋ํด ํ
์คํธ๋ฅผ ์งํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 1๊ณผ ๊ฐ๋ค.
์คํ์ ์งํํ ๋ base model์ ์ฌ์ฉํ์๊ณ ๊ฐ ๋ฐ์ดํฐ์
์ ๋ํด development set์์ ์ต๊ณ ์ ๊ตฌ์ฑ์ ์ ํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ์ฅ๋ global token์ ์ฌ์ฉํ๋ BigBird-ETC๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ฐ๋ผ์ ์ด ๊ตฌ์กฐ๋ฅผ ์ ํํ์ฌ hidden test set์์ ํ๊ฐ๋ฅผ ์ํ large model์ ํ์ต์์ผฐ๋ค.
ํ 2์์ BigBird-ETC์ ๋ฆฌ๋๋ณด๋์ top3 ๋ชจ๋ธ๋ค์ ๋น๊ตํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ longer context๋ฅผ ์ฌ์ฉํ๋ Longformer์ BigBird๊ฐ smaller context๋ฅผ ์ฌ์ฉํ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ๋๋ผ์ด ๊ฒ์ BigBird๋ single model์ด์ง๋ง, ๋ค๋ฅธ top3 ๋ชจ๋ธ๋ค์ ensemble ๋ชจ๋ธ์ด๋ผ๋ ์ ์ด๋ค.
Classification ์๋ก ๋ค๋ฅธ ๊ธธ์ด์ ์ฝํ
์ธ ๋ฅผ ๊ฐ๊ณ ์๋ ๋ค์ํ ๋ฌธ์ ๋ถ๋ฅ ๋ฐ์ดํฐ์
๊ณผ GLUE ๋ฐ์ดํฐ์
์ ๋ํด ํ
์คํธ๋ฅผ ์งํํ์๋ค. BERT๋ฅผ ๋ฐ๋ผ์ ๋
ผ๋ฌธ์์๋ ์ฒซ [CLS] token์ ์์ cross entropy๋ฅผ ์ฌ์ฉํ ํ๋์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์๋ค. ๋
ผ๋ฌธ์์๋ BigBird๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํจ๊ณผ๊ฐ longer document์ ์ ์ training example์ผ ๋ ๋์ฑ ์ปค์ง๋ค๊ณ ํ์๋ค.
4-1. Encoder-Decoder Tasks
encoder-decoder ์ธํ
์์๋ full self attention ๋๋ฌธ์ quadratic ๋ณต์ก๋๋ฅผ ์์ชฝ์์ ๋ชจ๋ ๊ฒช๋๋ค๋ ๊ฒ์ ์ ์ ์๋ค. BigBird์์๋ ์ค์ง encoder ์ธก๋ฉด์์๋ง sparse attention์ ์๊ฐํ์๋๋ฐ ์ด๋ ์๋ํ๋ฉด ์๋ฅผ ๋ค์ด ์์ฝ ๋ฌธ์ ์์ ์ถ๋ ฅ์ 200๊ฐ ๋ด์ง์ ๋จ์ด๊ฐ ์ฌ์ฉ๋๋๋ฐ ์
๋ ฅ๊ฐ์ผ๋ก๋ 3000๊ฐ ๋ด์ง์ ๋จ์ด๊ฐ ๋ค์ด์ค๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์์ฉ์ ํ ๋ encoder์๋ sparse attention์ ์ฌ์ฉํ๊ณ decoder์๋ full self attention์ ์ฌ์ฉํ๋ ๊ฒ์ด ํจ์จ์ ์ด๋ค๊ณ ๋ฐํ๋ค.
Summarization document summarization์ text document์ ์งง๊ณ ์ ํํ ์์ฝ์ ์์ฑํ๋ task์ด๋ค. ๋
ผ๋ฌธ์์๋ long document์ ์ถ์์ ์์ฝ์ ์ง์คํ์ฌ longer contextual encoder์ ์ฌ์ฉ๋ผ๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ์ ๋ํ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ฐ์ฅ ์ค์ํ ๋ฌธ์ฅ์ด 512๊ฐ์ ํ ํฐ ์ธ์ ๋ถ๋ถ์ด ๋ถํฌ๋์ด ์์์๋ ์๋ค.
- longer document๋ ๋ ํ๋ถํ ๋ด๋ก ๊ตฌ์กฐ์ ์์ฝ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฌ๋ฉด์ ๋ ๋ง์ context๋ฅผ ๊ด์ฐฐํ ์ ์๋ค.
pre-training์ generative task์ ๋์์ ์ฃผ๊ธฐ ๋๋ฌธ์ ๋
ผ๋ฌธ์์๋ base model์์ ์ผ๋ฐ์ ๋ชฉ์ MLM pre-training์ผ๋ก๋ถํฐ warm start ๋ฟ๋ง ์๋๋ผ SOTA๋ฅผ ๋ฌ์ฑํ ์์ฝ ๋ชจ๋ธ์ pre-training์ ํ์ฉํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ longer context๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ด ์๋นํ ํฅ์์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2007.14062
https://sh-tsang.medium.com/brief-review-big-bird-transformers-for-longer-sequences-12ccd3430e3b
'Paper Reading ๐ > Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Data Augmentation methods in NLP (0) | 2023.03.29 |
---|---|
GPT-4 Techinal Report Review (0) | 2023.03.28 |
Sparse Transformers: Generating Long Sequence with Sparse Transformers ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (0) | 2023.03.22 |
GPT-3: Language Models are Few-Shot Learners ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (0) | 2023.03.21 |
TinyBERT: Distilling BERT for Natural Language Understanding ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (0) | 2023.03.12 |