The overview of this paper
๋ ผ๋ฌธ์์๋ ํ ์คํธ ๋ฒ์๋ฅผ ๋์ฑ ์ ํํํ๋ pre-training method์ธ SpanBERT๋ฅผ ์๊ฐํ์๋ค. ๋ ผ๋ฌธ์์์ ๋ฐฉ์์ BERT๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํ์ฅํ์๋ค. 1. ๋๋ค ํ ํฐ์ ๋ง์คํนํ๊ธฐ ๋ณด๋ค๋ ์ธ์ ํ ๋๋ค ํ ํฐ์ ๋ง์คํน 2. Span Boundary Representations$($SBO$)$๋ฅผ ํ์ต์์ผ ๊ฐ๊ฐ์ token representation์ ์์กดํ์ง ์๊ณ masked token์ ์ ์ฒด ๋ด์ฉ์ ์์ธก. SpanBERT๋ BERT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , SpanBERT๋ QA์ coreference resolution ๊ฐ์ span selection ๋ฌธ์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Backgorund: BERT
3. Model
3-1. Span Masking
3-2. Span Boundary Objectives$($SBO$)$
3-3. Single-Sequence Training
4. Results
4-1. Per-Task Results
4-2. Overall Trends
5. Ablation Studies
5-1. Masking Schemes
5-2. Auxiliary Objectives
1. Introduction
BERT์ ๊ฐ์ pre-training method๋ค์ ๊ฐ๊ฐ์ ๋จ์ด๋ค ๋๋ subword unit์ ๋ง์คํนํ๋ self-supervised training์ ์ฌ์ฉํด์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, ๋ง์ NLP task๋ค์ ๋ ๊ฐ ๋๋ ๋ ๋ง์ ํ ์คํธ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ถ๋ฆฌํ๊ณ ๋ ํ๋ค. ๋ ผ๋ฌธ์์๋ BERT๋ฅผ ํจ์ฌ ๋ฐ์ด๋๋ span-level์ pre-training ๋ฐฉ์์ ์๊ฐํ์๋ค.
๋ ผ๋ฌธ์์ ์๊ฐํ SpanBERT๋ pre-training method๋ก ํ ์คํธ ๋ฒ์๋ฅผ ๋์ฑ ์ ํํํ๊ณ ์์ธกํ๋๋ก ๋์์ธ๋์๋ค. ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ masking scheme๊ณผ training ๋ชฉํ ๋ฉด์์ BERT์ ๋ฌ๋๋ค. ์ฒซ ๋ฒ์งธ๋ก, SpanBERT๋ ๊ฐ๊ฐ์ ๋๋คํ token์ ์์ธกํ๋๊ฒ ์๋๋ผ, ๋๋คํ๊ฒ ์ธ์ ํ span์ ์์ธกํ์๋ค. ๋ ๋ฒ์งธ๋ก, ๊ด์ฐฐ๋ ํ ํฐ์ ์ ์ฒด ๋ง์คํน๋ token์ ์์ธกํ๋ ์๋ก์ด span-boundary objective$($SBO$)$๋ฅผ ์๊ฐํ์๋ค. Span-based masking์ ๋ชจ๋ธ์๊ฒ span์ด ๋ฑ์ฅํ๋ ๋ฌธ๋งฅ์ ๋ํด ์์ธกํ๋๋ก ํ๋ค. ๊ฒ๋ค๊ฐ, SBO๋ ๋ชจ๋ธ์๊ฒ boundary token์ span-level์ ์ ๋ณด๋ฅผ ์ ์ฅํ ์ ์๋๋ก ํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ค๋ช ํ๊ณ ์๋ค.
SpanBERT๋ฅผ ํ์ฉํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ BERT๋ฅผ ๋ฐ์ด๋๋ ์ ํ๋๋ BERT๋ฅผ ๋ง๋ค์๋ค. ๋ ผ๋ฌธ์ ์ฌ์ฉ๋ baseline์ ๋ง๋๋ ๋์ค์, two half-length segment๋ก pre-training์ ํ๋ ๊ฒ๋ณด๋ค single-segement์ NSP์ ํจ๊ป pre-training์ ํ๋ ๊ฒ์ด ๋๋ถ๋ถ์ downstream task์์ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ฐ๋ผ์, ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์์ ์ฌํญ์ tuned single-sequence BERT baseline์ ๋งจ ์์ ์ถ๊ฐํ์๋ค.
๋ชจ๋ ๊ฒ์ ์ข ํฉํ์ฌ, ๋ ผ๋ฌธ์ pre-training ํ๋ก์ธ์ค๋ ์ฌ๋ฌ ๋ถ์ผ์ ๊ฑธ์ณ์ BERT baseline์ ๋ฅ๊ฐํ๋ model์ ๋ง๋ค์ด ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํนํ span selection task์ ๋ํด์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ SpanBERT๋ ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ์๋ค!! ๐ฅ
2. Background: BERT
SpanBERT๋ ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด, ๊ธฐ๋ณธ์ ์ผ๋ก BERT์ ๊ธฐ๋ฐ์ ๋๊ณ ์๋ ๋ชจ๋ธ์ด๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์ ์ฝ์ ๋, BERT์ ๋ํ ์ฌ์ ์ง์์ด ์์ผ๋ฉด ์ดํดํ๋๋ฐ ๋์์ด ๋๋ค. ๋ณธ ๋ธ๋ก๊ทธ์์ ์ด์ ์ ์ ๋ก๋ํ ํฌ์คํธ ์ค์ BERT์ ๊ดํ ํฌ์คํธ๊ฐ ์์ผ๋ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
BERT ๋ฆฌ๋ทฐ ๋ธ๋ก๊ทธ: https://cartinoe5930.tistory.com/entry/Pre-trained-Language-Modeling-paper-reading2-BERT-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding
Pre-trained Language Modeling paper reading(2) - BERT: Pre-training of Deep Bidirectional Transformers for Language Understandin
Pre-trained Language Modeling paper reading ์์ฆ NLP ๋ถ์ผ์์ ๋จ๊ฑฐ์ด ๊ฐ์์ธ pre-trained Language Modeling์ ๊ดํ ์ ๋ช ํ ๋ ผ๋ฌธ๋ค์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ์๋ค. ์ด Pre-trained Language Modeling paper reading์ ์ด ํฌ์คํธ๋ง์ผ๋ก ๋
cartinoe5930.tistory.com
3. Model
๋ ผ๋ฌธ์์๋ ํ ์คํธ ๋ฒ์๋ฅผ ๋์ฑ ์ ํํํ๊ณ ์์ธกํ๋ self-supervised pre-training method์ธ SpanBERT๋ฅผ ์๊ฐํ์๋ค. SpanBERT๋ BERT์์ ์๊ฐ์ ๋ฐ์๋๋ฐ, BERT์ bi-text ๋ถ๋ฅ ํ๋ ์์ํฌ๋ก๋ถํฐ ๋ค์์ ์ธ ๋ถ๋ถ์์ ์ผํํ์๋ค.
- ํ ํฐ ํ๋ ๋ณด๋ค๋ ํ ํฐ ๋ฒ์๋ฅผ ๋ง์คํนํ๊ธฐ ์ํ ์๋ก ๋ค๋ฅธ ๋๋ค ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์๋ค.
- span boundary์์ token์ representation๋ง์ ์ฌ์ฉํด์ ์ ์ฒด masked span์ ์์ธกํ๋ ์๋ก์ด auxiliary ๋ชฉํ์ธ SBO๋ฅผ ์๊ฐํ์๋ค.
- SpanBERT๋ ๊ฐ๊ฐ์ training example์ ๋ํด text์ ํ๋์ ์ธ์ ํ segment๋ฅผ ์ํ๋งํ์๊ณ , BERT์ NSP๋ฅผ ์ฌ์ฉํ์ง ์์๋ค.
3-1. Span Masking
token sequence $X = (x_1, x_2, ..., x_n)$์ด ์ฃผ์ด์ง๋ฉด masking budget์ ๋ฐ๋ผ์ ํ ํฐ์ ์๋ธ์ ์ธ $Y \subseteq X$๋ฅผ ์ ์ ํ๋ค. ๊ฐ๊ฐ์ ๋ฐ๋ณต์์, ์ฒ์์ ๊ธฐํํ์ ๋ถํฌ $l ~ Geo(p)$๋ก๋ถํฐ span length๋ฅผ ์ํ๋งํด์จ๋ค. ๊ทธ ๋ค์์ ๋๋คํ๊ฒ ๋ง์คํน๋์ด์ผํ soan์ ์์ ์ง์ ์ ์ ์ ํด์ผ ํ๋ค. ๋ ผ๋ฌธ์์๋ ํญ์ ์์ฑ๋ ๋จ์ด๋ค์ sequence๋ฅผ ์ํ๋งํ๊ณ , ์์ ์ง์ ์ ๋ฌด์กฐ๊ฑด ํ ๋จ์ด์ ์์ ๋ถ๋ถ์ด์ด์ผ ํ๋ค. ์ด์ ์ ์๋๋ค์ ๋ฐ๋ผ $p = 0.2$์ $l_{max}=10$์ผ๋ก ์ค์ ํ์๋ค. ์ด๊ฒ์ ํ๊ท span length $mean(l) = 3.8$๋ฅผ ๋ด๋์๋ค. ๋ค์์ ๊ทธ๋ฆผ 2๋ span mask length์ ๋ถํฌ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
masking ์ ๋ต์ BERT์ ์ ๋ต๊ณผ ๋๊ฐ์ด ์งํํ์๋ค. ๊ทธ์ ๊ฐ๊ฐ์ token์ ๋ํด ํ๋ ๊ฒ์ด span-level์ผ๋ก ๋ฐ๋์๋ค๋ ์ ๋ง ๋ค๋ฅด๋ค. span์์ ๋ค์ด๊ฐ ์๋ ๋ชจ๋ ํ ํฐ์ [MASK] ํ ํฐ์ผ๋ก ๋ณํ๋๋ค.
3-2. Span Boundary Objectives $($SBO$)$
Span selection model์ ์ด๊ฒ์ boundary token์ ์ฌ์ฉํด์ span์ ๊ณ ์ ๋ ๊ธธ์ด์ representation์ ์์ฑํ๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ์ง์ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๊ฐ๋ฅํ ํ ๋ง์ ๋ด๋ถ ๋ฒ์ ์ฝํ ์ธ ๋ฅผ ์์ฝํ๊ธฐ ์ํด ๋ฒ์์ ๋์ ๋ํ ํํ์ ์ด์์ ์ผ๋ก ์ํ๋ค. ๊ทธ๋์ boundary์์ ๊ด์ฐฐ๋ representation๋ง์ ์ฌ์ฉํด์ ๊ฐ๊ฐ์ masked span์ token์ ์์ธกํ๋ ๊ฒ์ ํฌํจํ๋ SBO๋ฅผ ์๊ฐํ์๋ค.
๊ณต์์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ sequence์์์ ๊ฐ๊ฐ์ ํ ํฐ $x_1, ..., x_n$์ ๋ํ transformer encoder์ ์ถ๋ ฅ์ ๋ํ๋ด์๋ค. token์ masked span $(x_s, ..., x_e) \in Y$$($์ฌ๊ธฐ์ $(s, e)$๋ ์์๊ณผ ๋์ง์ ์ ๋ํ๋.$)$๊ฐ ์ฃผ์ด์ง๋ฉด, SBO๋ external boundary token $x_{s-1}$๊ณผ $x_{e+1}$์ output encoding์ ์ฌ์ฉํด์ ๊ฐ๊ฐ span์ toekn $x_i$๋ฅผ ํํํ๋ค. ๋ฟ๋ง ์๋๋ผ, target token $\textbf{p}_{i-s+1}$๋ ์ฌ์ฉํ๋ค.
$\textbf{y}_i = f(\textbf{x}_{s-1}, \textbf{x}_{e+1}, \textbf{p}_{i-s+1})$
์ฌ๊ธฐ์ postion embedding $\textbf{p}_1, \textbf{p}_2,...$์ ์ผ์ชฝ boundary token $x_{s-1}$์ ๊ดํ์ฌ masked token์ ์๋์ ์์น๋ฅผ ๋งํฌํ๋ค. ๋ ผ๋ฌธ์์๋ representation function $f(\cdot)$์ 2-layer feed-forward network์ GeLU ํ์ฑํ ํจ์์ layer normalization๋ก ํ์ฉํ์๋ค.
$\textbf{h}_0 = [\textbf{x}_{s-1}; \textbf{x}_{e+1}; \textbf{p}_{i-s+1}]$
$\textbf{h}_1 = LayerNorm(GeLU(\textbf{W}_{1}\textbf{h}_{0}))$
$\textbf{y}_{i} = LayerNorm(GeLU(\textbf{W}_{2}\textbf{h}_{1}))$
๋ ผ๋ฌธ์์๋ vector representation $\textbf{y}_{i}$๋ฅผ ์ฌ์ฉํ์ token $x_i$๋ฅผ ์์ธกํ๊ณ MLM ๋ชฉํ์ ๋น์ทํ๊ฒ cross-entropy loss๋ฅผ ๊ณ์ฐํ๋ค.
SpanBERT๋ span boundary์ masked span์ ๊ฐ token $x_i$์ ๋ํ ๊ธฐ์กด MLM์ ๋ชฉํ์ ๋ํ loss๋ฅผ ํฉํ์๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค.
$L(x_i) = L_{MLM}(x_i) + L_{SBO}(x_i) = -log P(x_i | \textbf{x}_i) - log P(x_i | \textbf{y}_i)$
3-3. Single_sequence Training
BERT์ ํ์ต ๋ฐฉ๋ฒ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด, BERT๋ ๋ ๊ฐ์ ํ ์คํธ ์ํ์ค $(X_A, X_B)$๋ฅผ ๊ฐ์ง๊ณ , ๋ชจ๋ธ์ ์ด ๋ ๋ฌธ์ฅ์ด ์ด์ด์ง ๋ฌธ์ฅ์ธ์ง ์์ธกํ๋ NSP๋ฅผ ํตํด ํ์ต๋๋ค. ์ด๋ฌํ ์ธํ ์ NSP ๋ชฉํ ์์ด ๊ทธ์ single sequence๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ single-sequence ํ์ต์ด bi-sequence ํ์ต๋ณด๋ค ์ฐ์ํ ์ด์ ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ถ์ธกํ์๋ค.
- ๋ชจ๋ธ์ด ๋์ฑ ๊ธธ๊ณ full-length context์์ ์ ์๋
- ์ฐ๊ด๋์ด ์์ง ์์ ๋ฌธ์๋ก๋ถํฐ ๋์จ context๋ MLM์ noise๋ฅผ ์์ฑํ ์ ์์
๋ฐ๋ผ์, ์ด๋ฌํ ๋ฐฉ์์์, ๋ ผ๋ฌธ์์๋ NSP objective์ two-segment sampling ํ๋ก์์ ๋ฅผ ์ ๊ฑฐํ๊ณ , ๋ ๊ฐ์ ์งง์ ๋ฌธ์ฅ์ ์ํ๋งํ๊ธฐ ๋ณด๋ค๋ ์ต๋ 512๊ฐ์ ํ ํฐ์ ๊ฐ์ง๋ ํ๋์ ์ธ์ ํ segment๋ฅผ ์ํ๋งํ๋๋ก ํ์๋ค.
์์ฝํ๋ฉด, SpanBERT๋ span representation์ ๋ค์๊ณผ ๊ฐ์ด pre-train ํ์๋ค.
- masking scheme์ ๊ธฐ๋ฐ์ ๋ ๊ธฐํํ์ ๋ถํฌ๋ฅผ ์ฌ์ฉํด์ full word์ span์ masking
- auxiliary span-boundary objective๋ฅผ ์ต์ ํํ๊ณ , MLM์ ํ ๋ single-sequence pipeline์ ์ฌ์ฉํจ
4. Results
๋ ผ๋ฌธ์์๋ ๊ฐ task์ ๋ํ baseline๊ณผ SpanBERT๋ฅผ ๋น๊ตํ๊ณ , ์ ๋ฐ์ ์ธ ํธ๋ ๋์ ๋ํ ๊ฒฐ๋ก ์ ๊ทธ๋ ธ๋ค.
4-1. Overall Trends
์คํ์ ๊ฒฐ๊ณผ์ ๋ํ ์ ๋ฐ์ ์ธ ๊ฒฝํฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
- SpanBERT๋ ๊ฑฐ์ ๋ชจ๋ task์ ๋ํด BERT๋ฅผ ๋ฅ๊ฐํ์์. โ
- SpanBERT๋ ํนํ extractive question answering์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ๐ช
- single-sequence training์ด NSP์ ํจ๊ปํ bi-sequence training๋ณด๋ค ์๋นํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ๐ฅ
5. Ablation Studies
๋ ผ๋ฌธ์์๋ SpanBERT์ ๋๋ค span masking scheme๊ณผ linguistically-informed masking scheme๊ณผ ๋น๊ตํ์๊ณ , ๋๋ค span masking์ด ๊ฒฝ์๋ ฅ์ด ์๊ณ , ์ข ์ข ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๊ทธ ๋ค์์, SBO์ ํจ๊ณผ์ ๋ํด ์ฐ๊ตฌํ์๊ณ , ์ด SBO๋ฅผ BERT์ NSP์ ๋น๊ตํ์๋ค.
5-1. Masking Schemes
์ด์ ์ ์ฐ๊ตฌ๋ค์ pre-training ์ค์ linguistically-informed span์ ๋ง์คํนํจ์ผ๋ก์จ downstream task์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ SpanBERT์ random span masking์ linguisticall-informed span๊ณผ ๋น๊ตํ์๋ค. ํนํ, ๋ ผ๋ฌธ์์๋ ๋ค์์ ๋ค์ฏ ๊ฐ์ baseline model์ ๋ํด์ ํ์ต์ํค๊ณ ๋น๊ต๋ฅผ ์งํํ์๋ค.
- Subword Tokens: WordPiece token์ ๋๋คํ๊ฒ ์ํ๋ง
- Whole Words: word์ ๋ชจ๋ subword token์ ๋ง์คํน
- Names Entities: 50%์ ๋ํด์๋ text์ named entities์ ๋ฐ๋ผ ์ํ๋งํ๊ณ , 50%์ ๋ํด์๋ ๋๋คํ ์ ์ฒด ๋จ์ด๋ฅผ ์ํ๋ง
- Noun Phrases: Named Entities์ ๋น์ทํ๊ฒ, 50%์ ๋ํด์๋ ๋ช ์ฌ๊ตฌ๋ฌธ์ ๋ํด ์ํ๋ง
- Geometric Spans: SpanBERT์ geometric ๋ถํฌ๋ก๋ถํฐ ๋๋คํ span์ ์ํ๋ง
๋ค์์ ํ 1์ ์๋ก ๋ค๋ฅธ pre-training masking scheme์ด task์ ๋ํด ์ด๋ ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ๋ฅผ ์ดํด๋ณด๋ฉด, coreference resolution์ ์ ์ธํ๊ณ ๋ ๋ชจ๋ task์ ๋ํด์ random span์ ๋ง์คํนํ๋ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. linguistic masking scheme$($named entities & noun phrases$)$๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ผ๋, ์ด๋ค์ ์ฑ๋ฅ์ ์ผ๊ด๋์ง ์๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
5-2. Auxiliary Objectives
๊ฒฐ๊ณผ ์ฅ์์ ๋ด์ ์ ์ ์๋ฏ์ด single-sequence training๊ณผ ๋น๊ตํด์, NSP์ ํจ๊ปํ bi-sequence training์ downstream task์ ์ฑ๋ฅ์ ์ ์ข์ ์ํฅ์ ๋ผ์น ์๊ฐ ์๋ค. ์ค์ ๋ก ์ด๋ฐ์ง๋ฅผ ํ์ธํ๊ธฐ ์ํด span masking์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ํ๊ฐํ๊ณ , NSP๋ฅผ ์ ๊ฑฐํ ํจ๊ณผ๋ฅผ ์์๋ณด์๋ค.
๋ค์์ ํ 2๋ฅผ ๋ณด๋ฉด single-sequence training์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ์ ์ ์๋ค. SBO๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ถ๊ฐ์ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , span masking์ ํผ์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค coreference resoultion์ ๋ํด ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ค๋ค. NSP์ ๋ฌ๋ฆฌ SBO๋ ๋ฑํ ๋ถ์ ์ ์ธ ํจ๊ณผ๊ฐ ๋ํ๋์ง ์์๋ค.
์ถ์ฒ
https://arxiv.org/abs/1907.10529
SpanBERT: Improving Pre-training by Representing and Predicting Spans
We present SpanBERT, a pre-training method that is designed to better represent and predict spans of text. Our approach extends BERT by (1) masking contiguous random spans, rather than random tokens, and (2) training the span boundary representations to pr
arxiv.org