The overview of this paper
๋ ผ๋ฌธ์์๋ ํ ์คํธ ๋ฒ์๋ฅผ ๋์ฑ ์ ํํํ๋ pre-training method์ธ SpanBERT๋ฅผ ์๊ฐํ์๋ค. ๋ ผ๋ฌธ์์์ ๋ฐฉ์์ BERT๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํ์ฅํ์๋ค. 1. ๋๋ค ํ ํฐ์ ๋ง์คํนํ๊ธฐ ๋ณด๋ค๋ ์ธ์ ํ ๋๋ค ํ ํฐ์ ๋ง์คํน 2. Span Boundary Representations$($SBO$)$๋ฅผ ํ์ต์์ผ ๊ฐ๊ฐ์ token representation์ ์์กดํ์ง ์๊ณ masked token์ ์ ์ฒด ๋ด์ฉ์ ์์ธก. SpanBERT๋ BERT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , SpanBERT๋ QA์ coreference resolution ๊ฐ์ span selection ๋ฌธ์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Backgorund: BERT
3. Model
3-1. Span Masking
3-2. Span Boundary Objectives$($SBO$)$
3-3. Single-Sequence Training
4. Results
4-1. Per-Task Results
4-2. Overall Trends
5. Ablation Studies
5-1. Masking Schemes
5-2. Auxiliary Objectives
1. Introduction
BERT์ ๊ฐ์ pre-training method๋ค์ ๊ฐ๊ฐ์ ๋จ์ด๋ค ๋๋ subword unit์ ๋ง์คํนํ๋ self-supervised training์ ์ฌ์ฉํด์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, ๋ง์ NLP task๋ค์ ๋ ๊ฐ ๋๋ ๋ ๋ง์ ํ ์คํธ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ถ๋ฆฌํ๊ณ ๋ ํ๋ค. ๋ ผ๋ฌธ์์๋ BERT๋ฅผ ํจ์ฌ ๋ฐ์ด๋๋ span-level์ pre-training ๋ฐฉ์์ ์๊ฐํ์๋ค.
๋ ผ๋ฌธ์์ ์๊ฐํ SpanBERT๋ pre-training method๋ก ํ ์คํธ ๋ฒ์๋ฅผ ๋์ฑ ์ ํํํ๊ณ ์์ธกํ๋๋ก ๋์์ธ๋์๋ค. ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ masking scheme๊ณผ training ๋ชฉํ ๋ฉด์์ BERT์ ๋ฌ๋๋ค. ์ฒซ ๋ฒ์งธ๋ก, SpanBERT๋ ๊ฐ๊ฐ์ ๋๋คํ token์ ์์ธกํ๋๊ฒ ์๋๋ผ, ๋๋คํ๊ฒ ์ธ์ ํ span์ ์์ธกํ์๋ค. ๋ ๋ฒ์งธ๋ก, ๊ด์ฐฐ๋ ํ ํฐ์ ์ ์ฒด ๋ง์คํน๋ token์ ์์ธกํ๋ ์๋ก์ด span-boundary objective$($SBO$)$๋ฅผ ์๊ฐํ์๋ค. Span-based masking์ ๋ชจ๋ธ์๊ฒ span์ด ๋ฑ์ฅํ๋ ๋ฌธ๋งฅ์ ๋ํด ์์ธกํ๋๋ก ํ๋ค. ๊ฒ๋ค๊ฐ, SBO๋ ๋ชจ๋ธ์๊ฒ boundary token์ span-level์ ์ ๋ณด๋ฅผ ์ ์ฅํ ์ ์๋๋ก ํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ค๋ช ํ๊ณ ์๋ค.
SpanBERT๋ฅผ ํ์ฉํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ BERT๋ฅผ ๋ฐ์ด๋๋ ์ ํ๋๋ BERT๋ฅผ ๋ง๋ค์๋ค. ๋ ผ๋ฌธ์ ์ฌ์ฉ๋ baseline์ ๋ง๋๋ ๋์ค์, two half-length segment๋ก pre-training์ ํ๋ ๊ฒ๋ณด๋ค single-segement์ NSP์ ํจ๊ป pre-training์ ํ๋ ๊ฒ์ด ๋๋ถ๋ถ์ downstream task์์ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ฐ๋ผ์, ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์์ ์ฌํญ์ tuned single-sequence BERT baseline์ ๋งจ ์์ ์ถ๊ฐํ์๋ค.
๋ชจ๋ ๊ฒ์ ์ข ํฉํ์ฌ, ๋ ผ๋ฌธ์ pre-training ํ๋ก์ธ์ค๋ ์ฌ๋ฌ ๋ถ์ผ์ ๊ฑธ์ณ์ BERT baseline์ ๋ฅ๊ฐํ๋ model์ ๋ง๋ค์ด ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํนํ span selection task์ ๋ํด์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ SpanBERT๋ ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ์๋ค!! ๐ฅ
2. Background: BERT
SpanBERT๋ ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด, ๊ธฐ๋ณธ์ ์ผ๋ก BERT์ ๊ธฐ๋ฐ์ ๋๊ณ ์๋ ๋ชจ๋ธ์ด๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์ ์ฝ์ ๋, BERT์ ๋ํ ์ฌ์ ์ง์์ด ์์ผ๋ฉด ์ดํดํ๋๋ฐ ๋์์ด ๋๋ค. ๋ณธ ๋ธ๋ก๊ทธ์์ ์ด์ ์ ์ ๋ก๋ํ ํฌ์คํธ ์ค์ BERT์ ๊ดํ ํฌ์คํธ๊ฐ ์์ผ๋ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
BERT ๋ฆฌ๋ทฐ ๋ธ๋ก๊ทธ: https://cartinoe5930.tistory.com/entry/Pre-trained-Language-Modeling-paper-reading2-BERT-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding
3. Model
๋ ผ๋ฌธ์์๋ ํ ์คํธ ๋ฒ์๋ฅผ ๋์ฑ ์ ํํํ๊ณ ์์ธกํ๋ self-supervised pre-training method์ธ SpanBERT๋ฅผ ์๊ฐํ์๋ค. SpanBERT๋ BERT์์ ์๊ฐ์ ๋ฐ์๋๋ฐ, BERT์ bi-text ๋ถ๋ฅ ํ๋ ์์ํฌ๋ก๋ถํฐ ๋ค์์ ์ธ ๋ถ๋ถ์์ ์ผํํ์๋ค.
- ํ ํฐ ํ๋ ๋ณด๋ค๋ ํ ํฐ ๋ฒ์๋ฅผ ๋ง์คํนํ๊ธฐ ์ํ ์๋ก ๋ค๋ฅธ ๋๋ค ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์๋ค.
- span boundary์์ token์ representation๋ง์ ์ฌ์ฉํด์ ์ ์ฒด masked span์ ์์ธกํ๋ ์๋ก์ด auxiliary ๋ชฉํ์ธ SBO๋ฅผ ์๊ฐํ์๋ค.
- SpanBERT๋ ๊ฐ๊ฐ์ training example์ ๋ํด text์ ํ๋์ ์ธ์ ํ segment๋ฅผ ์ํ๋งํ์๊ณ , BERT์ NSP๋ฅผ ์ฌ์ฉํ์ง ์์๋ค.
3-1. Span Masking
token sequence $X = (x_1, x_2, ..., x_n)$์ด ์ฃผ์ด์ง๋ฉด masking budget์ ๋ฐ๋ผ์ ํ ํฐ์ ์๋ธ์ ์ธ $Y \subseteq X$๋ฅผ ์ ์ ํ๋ค. ๊ฐ๊ฐ์ ๋ฐ๋ณต์์, ์ฒ์์ ๊ธฐํํ์ ๋ถํฌ $l ~ Geo(p)$๋ก๋ถํฐ span length๋ฅผ ์ํ๋งํด์จ๋ค. ๊ทธ ๋ค์์ ๋๋คํ๊ฒ ๋ง์คํน๋์ด์ผํ soan์ ์์ ์ง์ ์ ์ ์ ํด์ผ ํ๋ค. ๋ ผ๋ฌธ์์๋ ํญ์ ์์ฑ๋ ๋จ์ด๋ค์ sequence๋ฅผ ์ํ๋งํ๊ณ , ์์ ์ง์ ์ ๋ฌด์กฐ๊ฑด ํ ๋จ์ด์ ์์ ๋ถ๋ถ์ด์ด์ผ ํ๋ค. ์ด์ ์ ์๋๋ค์ ๋ฐ๋ผ $p = 0.2$์ $l_{max}=10$์ผ๋ก ์ค์ ํ์๋ค. ์ด๊ฒ์ ํ๊ท span length $mean(l) = 3.8$๋ฅผ ๋ด๋์๋ค. ๋ค์์ ๊ทธ๋ฆผ 2๋ span mask length์ ๋ถํฌ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
masking ์ ๋ต์ BERT์ ์ ๋ต๊ณผ ๋๊ฐ์ด ์งํํ์๋ค. ๊ทธ์ ๊ฐ๊ฐ์ token์ ๋ํด ํ๋ ๊ฒ์ด span-level์ผ๋ก ๋ฐ๋์๋ค๋ ์ ๋ง ๋ค๋ฅด๋ค. span์์ ๋ค์ด๊ฐ ์๋ ๋ชจ๋ ํ ํฐ์ [MASK] ํ ํฐ์ผ๋ก ๋ณํ๋๋ค.
3-2. Span Boundary Objectives $($SBO$)$
Span selection model์ ์ด๊ฒ์ boundary token์ ์ฌ์ฉํด์ span์ ๊ณ ์ ๋ ๊ธธ์ด์ representation์ ์์ฑํ๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ์ง์ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๊ฐ๋ฅํ ํ ๋ง์ ๋ด๋ถ ๋ฒ์ ์ฝํ ์ธ ๋ฅผ ์์ฝํ๊ธฐ ์ํด ๋ฒ์์ ๋์ ๋ํ ํํ์ ์ด์์ ์ผ๋ก ์ํ๋ค. ๊ทธ๋์ boundary์์ ๊ด์ฐฐ๋ representation๋ง์ ์ฌ์ฉํด์ ๊ฐ๊ฐ์ masked span์ token์ ์์ธกํ๋ ๊ฒ์ ํฌํจํ๋ SBO๋ฅผ ์๊ฐํ์๋ค.
๊ณต์์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ sequence์์์ ๊ฐ๊ฐ์ ํ ํฐ $x_1, ..., x_n$์ ๋ํ transformer encoder์ ์ถ๋ ฅ์ ๋ํ๋ด์๋ค. token์ masked span $(x_s, ..., x_e) \in Y$$($์ฌ๊ธฐ์ $(s, e)$๋ ์์๊ณผ ๋์ง์ ์ ๋ํ๋.$)$๊ฐ ์ฃผ์ด์ง๋ฉด, SBO๋ external boundary token $x_{s-1}$๊ณผ $x_{e+1}$์ output encoding์ ์ฌ์ฉํด์ ๊ฐ๊ฐ span์ toekn $x_i$๋ฅผ ํํํ๋ค. ๋ฟ๋ง ์๋๋ผ, target token $\textbf{p}_{i-s+1}$๋ ์ฌ์ฉํ๋ค.
$\textbf{y}_i = f(\textbf{x}_{s-1}, \textbf{x}_{e+1}, \textbf{p}_{i-s+1})$
์ฌ๊ธฐ์ postion embedding $\textbf{p}_1, \textbf{p}_2,...$์ ์ผ์ชฝ boundary token $x_{s-1}$์ ๊ดํ์ฌ masked token์ ์๋์ ์์น๋ฅผ ๋งํฌํ๋ค. ๋ ผ๋ฌธ์์๋ representation function $f(\cdot)$์ 2-layer feed-forward network์ GeLU ํ์ฑํ ํจ์์ layer normalization๋ก ํ์ฉํ์๋ค.
$\textbf{h}_0 = [\textbf{x}_{s-1}; \textbf{x}_{e+1}; \textbf{p}_{i-s+1}]$
$\textbf{h}_1 = LayerNorm(GeLU(\textbf{W}_{1}\textbf{h}_{0}))$
$\textbf{y}_{i} = LayerNorm(GeLU(\textbf{W}_{2}\textbf{h}_{1}))$
๋ ผ๋ฌธ์์๋ vector representation $\textbf{y}_{i}$๋ฅผ ์ฌ์ฉํ์ token $x_i$๋ฅผ ์์ธกํ๊ณ MLM ๋ชฉํ์ ๋น์ทํ๊ฒ cross-entropy loss๋ฅผ ๊ณ์ฐํ๋ค.
SpanBERT๋ span boundary์ masked span์ ๊ฐ token $x_i$์ ๋ํ ๊ธฐ์กด MLM์ ๋ชฉํ์ ๋ํ loss๋ฅผ ํฉํ์๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค.
$L(x_i) = L_{MLM}(x_i) + L_{SBO}(x_i) = -log P(x_i | \textbf{x}_i) - log P(x_i | \textbf{y}_i)$
3-3. Single_sequence Training
BERT์ ํ์ต ๋ฐฉ๋ฒ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด, BERT๋ ๋ ๊ฐ์ ํ ์คํธ ์ํ์ค $(X_A, X_B)$๋ฅผ ๊ฐ์ง๊ณ , ๋ชจ๋ธ์ ์ด ๋ ๋ฌธ์ฅ์ด ์ด์ด์ง ๋ฌธ์ฅ์ธ์ง ์์ธกํ๋ NSP๋ฅผ ํตํด ํ์ต๋๋ค. ์ด๋ฌํ ์ธํ ์ NSP ๋ชฉํ ์์ด ๊ทธ์ single sequence๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ single-sequence ํ์ต์ด bi-sequence ํ์ต๋ณด๋ค ์ฐ์ํ ์ด์ ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ถ์ธกํ์๋ค.
- ๋ชจ๋ธ์ด ๋์ฑ ๊ธธ๊ณ full-length context์์ ์ ์๋
- ์ฐ๊ด๋์ด ์์ง ์์ ๋ฌธ์๋ก๋ถํฐ ๋์จ context๋ MLM์ noise๋ฅผ ์์ฑํ ์ ์์
๋ฐ๋ผ์, ์ด๋ฌํ ๋ฐฉ์์์, ๋ ผ๋ฌธ์์๋ NSP objective์ two-segment sampling ํ๋ก์์ ๋ฅผ ์ ๊ฑฐํ๊ณ , ๋ ๊ฐ์ ์งง์ ๋ฌธ์ฅ์ ์ํ๋งํ๊ธฐ ๋ณด๋ค๋ ์ต๋ 512๊ฐ์ ํ ํฐ์ ๊ฐ์ง๋ ํ๋์ ์ธ์ ํ segment๋ฅผ ์ํ๋งํ๋๋ก ํ์๋ค.
์์ฝํ๋ฉด, SpanBERT๋ span representation์ ๋ค์๊ณผ ๊ฐ์ด pre-train ํ์๋ค.
- masking scheme์ ๊ธฐ๋ฐ์ ๋ ๊ธฐํํ์ ๋ถํฌ๋ฅผ ์ฌ์ฉํด์ full word์ span์ masking
- auxiliary span-boundary objective๋ฅผ ์ต์ ํํ๊ณ , MLM์ ํ ๋ single-sequence pipeline์ ์ฌ์ฉํจ
4. Results
๋ ผ๋ฌธ์์๋ ๊ฐ task์ ๋ํ baseline๊ณผ SpanBERT๋ฅผ ๋น๊ตํ๊ณ , ์ ๋ฐ์ ์ธ ํธ๋ ๋์ ๋ํ ๊ฒฐ๋ก ์ ๊ทธ๋ ธ๋ค.
4-1. Overall Trends
์คํ์ ๊ฒฐ๊ณผ์ ๋ํ ์ ๋ฐ์ ์ธ ๊ฒฝํฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
- SpanBERT๋ ๊ฑฐ์ ๋ชจ๋ task์ ๋ํด BERT๋ฅผ ๋ฅ๊ฐํ์์. โ
- SpanBERT๋ ํนํ extractive question answering์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ๐ช
- single-sequence training์ด NSP์ ํจ๊ปํ bi-sequence training๋ณด๋ค ์๋นํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ๐ฅ
5. Ablation Studies
๋ ผ๋ฌธ์์๋ SpanBERT์ ๋๋ค span masking scheme๊ณผ linguistically-informed masking scheme๊ณผ ๋น๊ตํ์๊ณ , ๋๋ค span masking์ด ๊ฒฝ์๋ ฅ์ด ์๊ณ , ์ข ์ข ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๊ทธ ๋ค์์, SBO์ ํจ๊ณผ์ ๋ํด ์ฐ๊ตฌํ์๊ณ , ์ด SBO๋ฅผ BERT์ NSP์ ๋น๊ตํ์๋ค.
5-1. Masking Schemes
์ด์ ์ ์ฐ๊ตฌ๋ค์ pre-training ์ค์ linguistically-informed span์ ๋ง์คํนํจ์ผ๋ก์จ downstream task์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ SpanBERT์ random span masking์ linguisticall-informed span๊ณผ ๋น๊ตํ์๋ค. ํนํ, ๋ ผ๋ฌธ์์๋ ๋ค์์ ๋ค์ฏ ๊ฐ์ baseline model์ ๋ํด์ ํ์ต์ํค๊ณ ๋น๊ต๋ฅผ ์งํํ์๋ค.
- Subword Tokens: WordPiece token์ ๋๋คํ๊ฒ ์ํ๋ง
- Whole Words: word์ ๋ชจ๋ subword token์ ๋ง์คํน
- Names Entities: 50%์ ๋ํด์๋ text์ named entities์ ๋ฐ๋ผ ์ํ๋งํ๊ณ , 50%์ ๋ํด์๋ ๋๋คํ ์ ์ฒด ๋จ์ด๋ฅผ ์ํ๋ง
- Noun Phrases: Named Entities์ ๋น์ทํ๊ฒ, 50%์ ๋ํด์๋ ๋ช ์ฌ๊ตฌ๋ฌธ์ ๋ํด ์ํ๋ง
- Geometric Spans: SpanBERT์ geometric ๋ถํฌ๋ก๋ถํฐ ๋๋คํ span์ ์ํ๋ง
๋ค์์ ํ 1์ ์๋ก ๋ค๋ฅธ pre-training masking scheme์ด task์ ๋ํด ์ด๋ ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ๋ฅผ ์ดํด๋ณด๋ฉด, coreference resolution์ ์ ์ธํ๊ณ ๋ ๋ชจ๋ task์ ๋ํด์ random span์ ๋ง์คํนํ๋ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. linguistic masking scheme$($named entities & noun phrases$)$๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ผ๋, ์ด๋ค์ ์ฑ๋ฅ์ ์ผ๊ด๋์ง ์๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
5-2. Auxiliary Objectives
๊ฒฐ๊ณผ ์ฅ์์ ๋ด์ ์ ์ ์๋ฏ์ด single-sequence training๊ณผ ๋น๊ตํด์, NSP์ ํจ๊ปํ bi-sequence training์ downstream task์ ์ฑ๋ฅ์ ์ ์ข์ ์ํฅ์ ๋ผ์น ์๊ฐ ์๋ค. ์ค์ ๋ก ์ด๋ฐ์ง๋ฅผ ํ์ธํ๊ธฐ ์ํด span masking์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ํ๊ฐํ๊ณ , NSP๋ฅผ ์ ๊ฑฐํ ํจ๊ณผ๋ฅผ ์์๋ณด์๋ค.
๋ค์์ ํ 2๋ฅผ ๋ณด๋ฉด single-sequence training์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ์ ์ ์๋ค. SBO๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ถ๊ฐ์ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , span masking์ ํผ์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค coreference resoultion์ ๋ํด ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ค๋ค. NSP์ ๋ฌ๋ฆฌ SBO๋ ๋ฑํ ๋ถ์ ์ ์ธ ํจ๊ณผ๊ฐ ๋ํ๋์ง ์์๋ค.
์ถ์ฒ
https://arxiv.org/abs/1907.10529