Pre-trained Language Modeling paper reading
์์ฆ NLP ๋ถ์ผ์์ ๋จ๊ฑฐ์ด ๊ฐ์์ธ pre-trained Language Modeling์ ๊ดํ ์ ๋ช ํ ๋ ผ๋ฌธ๋ค์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ์๋ค. ์ด Pre-trained Language Modeling paper reading์ ์ด ํฌ์คํธ๋ง์ผ๋ก ๋๋๋ ๊ฒ์ด ์๋๋ผ ์ฐ์๋ ํฌ์คํธ๋ฅผ ์์ฑํ ์๊ฐ์ด๋ค. ์ด๋ฒ ํฌ์คํธ๋ ์ ๋ฒ ํฌ์คํธ์ ELMo์ ์ด์ด์ BERT์ ๋ํด์ ๋ฆฌ๋ทฐํ์๋ค.
- ELMo: 'Deep contextualized word representations' reading & review
- BERT: 'Pre-training of Deep Bidirectional Transformers for Language Understanding' reading & review(this post)
- GPT-1: 'Improving Language Understanding by Generative Pre-Training' reading & review
BERT๋ Transformer์ encoder๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ์ด ๋ ผ๋ฌธ์ ์ฝ๊ธฐ ์ ์ Transformer๋ฅผ ์ค๋ช ํ ๋ ผ๋ฌธ์ธ 'Attention is All You Need'๋ฅผ ๋จผ์ ์ฝ์ด๋ณด๊ธธ ๋ฐ๋๋ค. ๊ทธ๋์ ์ค๋์ BERT ๋ ผ๋ฌธ์ ๋ํด์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํด๋ณผ ๊ฒ์ด๋ค. BERT ๋ ผ๋ฌธ์ ์ฌ๊ธฐ์์ ํ์ธํ ์ ์๋ค.
$($2023.03.09 ์ถ๊ฐ$)$
BERT์ ๋ํ ์ฝ๋ ๊ตฌํ ์ค์ต๋ ์ถ๊ฐ์ ์ผ๋ก ํ์๋ค. ์ฝ๋ ๊ตฌํ ์ค์ต๊ณผ ํฌ์คํธ๋ฅผ ๊ฐ์ด ๋ณด๋ฉด ์ดํด์ ๋ ๋์์ด ๋๊ธฐ ๋๋ฌธ์ ๊ฐ์ด ๋ณด๋ฉด์ ๊ณต๋ถํ ๊ฒ์ ์ถ์ฒํ๋ค.
Table of Contents
1. Introduction
2. BERT
2-1. Pre-training BERT
2-2. Fine-tuning BERT
1. Introduction
์ด ๋ ผ๋ฌธ์์๋ ์๋ก์ด Language Model์ธ BERT(Bidirectional Encoder Representation from Transformers)๋ฅผ ์๊ฐํ๋ค. BERT๋ ์ด์ ์ LM๋ค๊ณผ๋ ๋ค๋ฅด๊ฒ unlabeled text์ ๋ํด์ bidirectional ์ฆ, ๋ฌธ์ฅ์ ๋ํด ์ ๋ฐฉํฅ๊ณผ ์ญ๋ฐฉํฅ์ผ๋ก ํด์์ ํ์๋ค. BERT๋ ๋งค์ฐ ๊ฐ๋จํ ๋ชจ๋ธ์ด์ง๋ง, ๊ทธ ์ฑ๋ฅ์ ๊ฐํ ๊ฐ๋ ฅํ๋ค๊ณ ํ ์ ์๋ค.
pre-trained language modeling
์ง๊ธ๊น์ง pre-trained langauge representations๋ฅผ downstream task ์ ์ฉํ๋ ๋ฐฉ๋ฒ์๋ ํฌ๊ฒ ๋ ๊ฐ์ง๊ฐ ์์๋ค. ํ๋๋ feature-based์ด๊ณ ๋ค๋ฅธ ํ๋๋ fine-tuning์ด๋ค.
- feature-based approach: ELMo๊ฐ ์ด ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด ๋ฐฉ์์ ํน์ง์ ์ถ๊ฐ์ ์ธ feature๋ค๋ก pre-trained ๋ representation์ ํฌํจํ๋ task-specific ํ architecture์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค.
- fine-tuning approach: GPT๊ฐ ์ด ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด ๋ฐฉ์์ ์ต์ํ์ task-specific ํ parameters์ ์๊ฐํ๊ณ , ๋ชจ๋ pre-trained parameters์ ๋ํด ๊ฐ๋จํ๊ฒ fine-tuning์ ํ๋ฉด์ downstream task์์์ ํ์ต๋๋ค.
current techniques' weakness
์ ์๋ค์ ์ด techinuqe๋ค์ด pre-trained representation์ power์ ํนํ fine-tuning์ ๊ด์ ์ ๋ํด์ ์ ํํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ฃผ๋ ๋จ์ ์ ํ์ฌ์ LM๋ค์ด ๋๋ถ๋ถ unidirectional(๋จ๋ฐฉํฅ)์ ์ด๋ผ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ pre-training ์ค์ ์ฌ์ฉํ ์ ์๋ architecture์ ์ ํ์ ์ ํํ๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด GPT๋ left-to-right ๋ฐฉ์์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ sentence-level์ task์ ๋ํด์ ๊ทธ๋ฆฌ ์ข์ง ์์ ๋ฐฉ์์ด๊ณ , ์ด๊ฒ์ fine-tuning based approach๋ฅผ QA ๊ฐ์ token-level-task์ ์ ์ฉ์ํฌ ๋ ๋งค์ฐ ํด๋ก์ธ ์ ์๋ค.
Solution: BERT
์์ ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํ solution์ผ๋ก BERT๋ฅผ ์๊ฐํ๋ค. BERT๋ ์ด์ ์ unidirection์ ์ ์ฝ์ 'masked language model' (MLM)์ ์ด์ฉํ์ฌ ํด๊ฒฐํ์๋ค. MLM์ ๋ํด ๊ฐ๋ตํ ์ค๋ช ํ๋ฉด, input์ผ๋ก ๋ค์ด์ค๋ ๋ฌธ์ฅ์ token์ ๋ํด random์ผ๋ก mask๋ฅผ ์์ฐ๊ณ , ์ด mask ๋ ๋จ์ด๊ฐ ์๋ ์ด๋ค ๋จ์ด์๋์ง๋ฅผ ์ค๋ก์ง ๋ฌธ๋งฅ ํด์์ผ๋ก๋ง ์์ธกํ๋ ๊ฒ์ด๋ค. left-to-right๋ชจ๋ธ๊ณผ ๋ค๋ฅด๊ฒ MLM์ ์ผ์ชฝ์ผ๋ก ํฅํ๋ ๋ฌธ๋งฅ๊ณผ ์ค๋ฅธ์ชฝ์ผ๋ก ํฅํ๋ ๋ฌธ๋งฅ์ ์ตํฉ์ํฌ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ ์ถ๊ฐ์ ์ผ๋ก 'next sentence prediction' ๋ํ ์ฌ์ฉํ์ฌ text-pair representaion๋ ๊ณต๋์ผ๋ก pre-train ์ํฌ ์ ์์๋ค.
Contribution of this paper
- ๋ ผ๋ฌธ์์๋ language representation์ ์ํ bidirectional pre-training์ ์ค์์ฑ์ ์ค๋ช ํ๋ค. BERT๋ MLM์ ์ฌ์ฉํ์ฌ pre-trained deep bidirectional representation์ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
- pre-trained representation์ด task-specific ํ๊ฒ ์๋ํ ์ ์๋๋ก ํ ๋, ๋ฌด๊ฒ๊ฒ ๋ณํ๋๊ฒ ํ์ง ์๋๋ค. BERT๋ fine-tuning approach๋ก์ ์ฒ์์ผ๋ก ๊ด๋ฒ์ํ๊ฒ SOTA๋ฅผ ๋ฐ์ ๋ชจ๋ธ์ด๋ค.
2. BERT
BERT๋ ํฌ๊ฒ pre-training๊ณผ fine-tuning๊ณผ์ ์ผ๋ก ๋๋๋ค. pre-training ๊ณผ์ ์์ ๋ชจ๋ธ์ ๋ค์ํ pre-training task์ ๋ํด unlabeled data์ ๋ํด ํ๋ จ๋๋ค. ๋ค์์ผ๋ก, fine-tuning์ ์ํด BERT๋ ๋จผ์ pre-trained parameters๋ก ์ด๊ธฐํ๋๊ณ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ downstream task์ labeled data๋ฅผ ์ฌ์ฉํ์ฌ fine-tuning ๋๋ค. ๊ฐ downstream task์๋ pre-trained ๋ ๋์ผํ parameter๋ก ์ด๊ธฐํ๋ ๊ฒฝ์ฐ์๋ ๋ณ๋์ fine-tuning ๋ ๋ชจ๋ธ์ด ์๋ค.
BERT์ ํน์ง์ ๋ค์ํ task์ ๋ํด์ ๋ชจ๋ ํต์ผ๋ architecture๋ผ๋ ์ ์ด๋ค. pre-trained architecture๊ณผ final dowanstream task์ ๋ํด์ ์กฐ๊ธ์ ์ฐจ์ด๊ฐ ์์ ๋ฟ์ด์ง ํฐ ์ฐจ์ด๋ ์๋ค.
Model Architecture
BERT์ architecture๋ original Transformer์ ๋ฒ ์ด์ค๋ฅผ ๋ multi-layer bidirectional Transformer encoder์ด๋ค. ์ด์ ๊ฐ์ architecture์ ์ฌ์ฉํ ์ด์ ๋ Transformer์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๊ฒ ๋์๊ณ , ๊ฑฐ์ original๊ณผ ๋์ผํ ๊ตฌ์กฐ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ค์์ ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๋ณ์๋ค์ด๋ค.
- L: layer ๊ฐ์ / H: hidden size / A: Self-attention head ๊ฐ์
- BERT_BASE (L = 12, H = 768, A = 12, Total Params ์ = 1.1์ต)
- BERT_LARGE (L = 24, H = 1024, A = 16, Total Params ์ = 3.4์ต)
Input/Output Representations
BERT๋ฅผ ๋ค์ํ down-stream task์ ์ ์ฉ์ํค๊ธฐ ์ํด BERT์ input representation์ ํ๋์ ๋ฌธ์ฅ๊ณผ pair ๋ฌธ์ฅ(ex. {Question, Answer})์ ๋ํด ํ๋์ token์ผ๋ก ๋ฐ๊ฟ ์ ์๊ฒ ํ์๋ค. ์ด ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋๋ฉด '๋ฌธ์ฅ'์ ์ค์ง์ ์ธ linguistic sentence๋ผ๊ธฐ๋ณด๋ค๋ ์ฐ์์ ์ธ ํ ์คํธ์ ์์์ ์ธ span์ผ๋ก ๋ณํ๊ฒ ๋๋ค. '์ํ์ค'๋ BERT์ input token์ธ๋ฐ, ์ด ์ํ์ค๋ ํ๋์ sentence ๊ฑฐ๋ ๋ ๊ฐ์ sentence๊ฐ ํจ๊ป ํฉ์ณ์ง ๋ชจ์์ ๊ฐ์ถ๊ณ ์๋ค. ์ด ์ํ์ค์ sentence๋ ์ฐ๋ฆฌ๊ฐ ์๋ ์ผ๋ฐ์ ์ธ sentence๊ฐ ์๋๋ผ ์์ ์ ์ํ ๊ฒ์ฒ๋ผ BERT์ sentence์ด๋ค. BERT๋ 30,000๊ฐ์ token vocabulary๊ฐ ๋ค์ด ์๋ WordPiece embedding์ ์ฌ์ฉํ์๋ค. ์ํ์ค์ ์ฒซ ๋ฒ์งธ token์ ํญ์ ํน๋ณํ classification token์ธ ([CLS])์ด๋ค. ์ด token์ ํด๋นํ๋ ์ต์ข hidden state๋ classification task์ ๋ํ ์ง๊ณ ์ํ์ค ํํ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. sentence pairs๋ ํ๋์ ์ํ์ค๋ก ํฉ์ณ์ง๋ค. ๋ ผ๋ฌธ์์๋ ์ด sentence๋ค์ 2๊ฐ์ง๋ก ๋ถ๋ฅํ์๋๋ฐ, ์ฒซ ๋ฒ์งธ๋ special token์ธ ([SEP])์ด๋ค. ๋ ๋ฒ์งธ๋ ๋ชจ๋ token๋ค์ ๋ํด ํ์ต๋ embedding์ ์ถ๊ฐํ์ฌ ์ด token์ด sentence A ๋๋ sentence B์ ์ํ๋์ง ๊ตฌ๋ถํด์ค๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ ์ดํด๋ณด๋ฉด input embedding์ E๋ก, ์คํ์ [CLS] token์ ๋ง์ง๋ง ํ๋ ๋ฒกํฐ๋ C๋ก, i๋ฒ์งธ input token์ ์ํ ๋ง์ง๋ง ํ๋ ๋ฒกํฐ๋ฅผ T_i๋ก ๋์๋ค.
์ฃผ์ด์ง ํ ํฐ์ ๋ํด ํด๋น ํ ํฐ, segment ๋ฐ position embedding์ ํฉ์ฐํ์ฌ input representation์ ๊ตฌ์ฑํ๋ค. ์ด ๊ตฌ์กฐ์ ๋ํ ์๊ฐํ๋ ๊ทธ๋ฆผ 2์ ๋ํ๋ ์๋ค. ์ฌ๊ธฐ์ ๊ฐ๊ฐ์ embedding๋ค์ ๋ํ ์ค๋ช ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Token Embeddings: ๊ฐ๊ฐ์ token์ embedding ๊ฐ
- Segment Embeddings: ์ํ์ค๊ฐ 2๊ฐ๊ฐ ๋ค์ด๊ฐ์ ๋ ์ด๋๊น์ง๊ฐ ์ฒซ ๋ฒ์งธ ์ํ์ค์ด๊ณ , ์ด๋๊น์ง๊ฐ ๋ ๋ฒ์งธ ์ํ์ค์ธ์ง ๋ถ๋ฆฌํด์ฃผ๊ธฐ ์ํด ํ์ํ embedding
- Position Embeddings: ๊ฐ๊ฐ์ token์ position ๊ฐ
2-1. Pre-training BERT
์ด ๋ ผ๋ฌธ์์๋ ์ง๊ธ๊น์ง์ ์ ํต์ ์ธ left-to-right ๋ชจ๋ธ์ด๋ right-to-left ๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์๊ณ BERT๋ฅผ pre-train ํ์๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์์ ์ธ๊ธํ ๋ ๊ฐ์ง์ unsupervised tasks๋ก pre-train์ ์งํํ์๋ค. ์ด๊ฒ์ ๋ํ ์ ๋ฐ์ ์ธ ๋ด์ฉ์ ๊ทธ๋ฆผ 1์์ ์ค๋ช ๋๊ณ ์๋ค.
Task #1: Masked LM
์ง๊ด์ ์ผ๋ก deep bidirectional model์ด ๋จ๋ฐฉํฅ์ธ ๋ค๋ฅธ ๋ชจ๋ธ, ์๋ฅผ ๋ค์ด left-to-right๋ right-to-left๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ๊ฒ์ด๋ผ ์๊ฐํ ์ ์๋ค. ์๋ํ๋ฉด ์๋ฐฉํฅ์ฑ์ ๊ฐ์ง๊ฒ ๋๋ฉด ๊ฐ๊ฐ์ ๋จ์ด๋ค์ ์๊ธฐ ์์ ์ ๊ฐ์ ์ ์ผ๋ก ๋ณผ ์ ์๊ฒ ํ๊ณ , ๋ชจ๋ธ์ target word๋ฅผ multu-layered context ๋ด์์ ์์ธกํ ์ ์๋ค.
deep bidirectional representation์ ํ์ต์ํค๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ input token์ ๋ํด random ํ๊ฒ ์ด๋ ์ ๋์ percentage๋ฅผ ๊ฐ์ง๊ณ mask๋ฅผ ์์ด ๋ค์์ ์ด mask๊ฐ ์์์ง ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ณผ์ ์ ํตํด ํ์ตํ๊ฒ ํ์๋ค. ์ด ๊ณผ์ ์ ๋ ผ๋ฌธ์์๋ 'masked LM' (MLM)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ ผ๋ฌธ์์๋ random์ผ๋ก ๊ฐ ์ํ์ค์ ๋ชจ๋ WordPiece ํ ํฐ์ 15%๋ฅผ masking ํ๋ค. ์ด์ ์ ์ฐ๊ตฌ์๋ ๋ฌ๋ฆฌ ์ ์ฒด ์ ๋ ฅ์ ์ฌ๊ตฌ์ฑํ์ง ์๊ณ ๋ง์คํน๋ ๋จ์ด๋ง ์์ธกํ๋ค.
์ด๋ฅผ ํตํด bidirectional pre-trained ๋ชจ๋ธ์ ์ป์ ์ ์์ง๋ง fine-tuning ์ค์๋ [MASK] ํ ํฐ์ด ๋ํ๋์ง ์๊ธฐ ๋๋ฌธ์ pre-training๊ณผ fine-tuning ๊ฐ์ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด 'masekd' ๋จ์ด๋ฅผ ์ค์ [MASK] ํ ํฐ์ผ๋ก ํญ์ ๊ต์ฒดํ์ง๋ ์๊ณ , i๋ฒ์งธ token์ด ์ ํ๋์์ ๋, ๋ ผ๋ฌธ์์๋ ๋ค์์ 3๊ฐ์ง ๊ฒฝ์ฐ๋ก token์ ๋ณ๊ฒฝํ์๋ค. ์ด ์์น๋ค์ ๋ณ์๋ฅผ ์ฌ๋ฌ ๋ฒ ์กฐ์ ํด๋ณด๋ฉด์ ์ป๊ฒ ๋ ๊ฐ์ฅ ์ค์ํ ์ฑ๋ฅ์ ๋ฝ์๋ธ ์์น๋ค์ด๋ค. ํ๋ จ ๋ฐ์ดํฐ ์์ฑ๊ธฐ๋ ์์ธก์ ์ํด ๋ฌด์์ ํ๊ฒ 15%์ token position์ ์ ํํ๋ค. ๊ทธ๋ฐ ๋ค์์ original token์ cross entropy loss๋ฅผ ์ด์ฉํด ์์ธกํ๋ ๋ฐ์ T_i๊ฐ ์ฐ์ด๊ฒ ๋๋ค.
- 80%๋ [MASK] token์ผ๋ก ๋ณํ
- 10%๋ random token์ผ๋ก ๋ณํ
- 10%๋ i๋ฒ์งธ ํ ํฐ์ ๊ทธ๋๋ก ๋
Task #2: Next Sentence Prediction(NSP)
๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ์์์ผ ํด๊ฒฐํ ์ ์๋ task๋ค๋ ์กด์ฌํ๊ธฐ ๋๋ฌธ์, BERT๋ NSP๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ ์ ์์๋ค. ๋ฌธ์ฅ ๊ด๊ณ๋ฅผ ์ดํดํ๋ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํด ๋จ์ผ ์ธ์ด ์ฝํผ์ค์์ ๊ฐ๋จํ๊ฒ ์์ฑํ ์ ์๋ ์ด์งํ๋ next sentence prediction ์์ ์ ์ฌ์ ํ์ตํฉ๋๋ค. ํนํ, ๊ฐ pre-train ์์ ์ ๋ํด ๋ฌธ์ฅ A์ B๋ฅผ ์ ํํ ๋ 50% ์ ๋๋ B๊ฐ A ๋ค์์ ์ค๋ ์ค์ next sentence์ด๊ณ (IsNext๋ก ๋ ์ด๋ธ ์ง์ ), ๊ทธ ์ธ์ 50% ์ ๋๋ corpus์์ ๋ฝ์์จ ์์์ ๋ฌธ์ฅ์ด๋ค NotNext๋ก ๋ ์ด๋ธ ์ง์ ). ์์ ๊ทธ๋ฆผ 1์์ ์ฒ๋ผ C๋ NSP๋ฅผ ์ํด ์ฌ์ฉ๋๋ค. ๋งค์ด ๊ฐ๋จํจ์๋ ๋ถ๊ตฌํ๊ณ ์ด pre-training์ ๋งค์ฐ ํจ๊ณผ์ ์ด์๋ค.
- Pre-training data
- pre-training procedure๋ ๋๊ฒ ๊ธฐ์กด์ ์กด์ฌํ๋ language modeling pre-training์ ์ํ ๋ฌธํ๋ค์ ์ฌ์ฉํ์๋ค. pre-training corpus๋ BooksCorpus์ English Wikipedia๋ฅผ ์ฌ์ฉํ์๋ค.
2-2. Fine-tuning BERT
fine-truning์ ๋งค์ฐ ์ง๊ด์ ์ธ๋ฐ ์๋ํ๋ฉด Transformer์ self-attention mechanism์ด ์ ์ ํ input๊ณผ output์ ๊ต์ฒดํด์ฃผ๋ฉด์ BERT๊ฐ ๋ค์ํ downstream task์ ์๋ง๊ฒ ํ์ต์์ผ์ค๋ค. BERT๋ self-attention๊ณผ ์ฐ๊ฒฐ๋ text-pairs์ encoding ํ๋ ๊ฒ์ด ๋ ๋ฌธ์ฅ ์ฌ์ด์ bidirectional cross attention์ ํจ๊ณผ์ ์ผ๋ก ํฌํจํ๊ธฐ ๋๋ฌธ์ ์ด ์ด์ ์ ์ฐ๊ตฌ๋ค์์ ์ฌ์ฉ๋ ๋ ๋จ๊ณ๋ฅผ ํตํฉํ๊ธฐ ์ํด self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ค.
๊ฐ๊ฐ์ task์ ๋ํด, ๋ ผ๋ฌธ์์๋ task-specific ํ input๊ณผ output์ BERT์ ์ฐ๊ฒฐํ๊ณ ๋ชจ๋ parameters์ ์ข ๋จ ๊ฐ์ fine-tuning๋ง ํ์๋ค. input์์๋ pre-training์ ํตํด ๋์จ sentence A์ sentence B๊ฐ ๋ค์ ๊ฒ๋ค๊ณผ ์ ์ฌํ๋ค.
- paraphrasing์ sentence pairs / entailment์ ๊ฐ์ค-์ ์ ์ / question answering์ ์ง๋ฌธ-๋ฌธ์ฅ ์
- text classification ๋๋ sequence tagging์์ degenerate ๋ text-∅ ์
output์์๋ token representation๋ค์ด sequence tagging ๋๋ question answering ๊ฐ์ token level task์ output layer์ ๋ฃ์ด์ก๊ณ , [CLS] representation์ด classification์ output layer์ ๋ฃ์ด์ก๋ค. ๋ค์์ ๊ทธ๋ฆผ 3์ ๋ ผ๋ฌธ์์ ์๊ฐํ ๊ฐ๊ฐ์ task๋ค์ ๋ํ BERT์ fine-tuning ๊ณผ์ ์ด๋ค.
์ ๊ทธ๋ฆผ 3์ ๋ํด์ ์ค๋ช ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- (a) Sentence Pair Classification Tasks: sentence pair์ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ์ด๊ฒ ํน์ ํ class์ ์ํ๋์ง ์๋์ง๋ฅผ ํ์
- (b) Single Sentence Classification Tasks: ํ๋์ single sentence๊ฐ ์ฃผ์ด์ก์ ๋, ์ด sentence๊ฐ ์ด๋์ ์ํ๋์ง๋ฅผ class ๋ถ๋ฅ
- (c) Question Answering Tasks: Question๊ณผ Paragraph๊ฐ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ก์ ๋, Paragraph์ token๋ค์ ํด์ํด๋ณด๋ฉด์ ์ง๋ฌธ์ ๋ํ ๋ต์ ๋์ถ
- (d) Single Sentence Tagging Tasks: ๋ฌธ์ฅ์ ๊ฐ๊ฐ์ ํ ํฐ์ ๋ํด ์ด ํ ํฐ์ด ์ด๋ค ํํ์์ธ์ง์ ๊ฐ์ ๋ถ์์ ์งํํ ๋๋ ๊ฐ๊ฐ์ ํ ํฐ์ ๋ํด์ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅ
์ถ์ฒ
https://arxiv.org/pdf/1810.04805.pdf
https://www.youtube.com/watch?v=IwtexRHoWG0