The overview of this paper
๋ ผ๋ฌธ์์๋ seq2seq ๋ชจ๋ธ์ pre-trainingํ๊ธฐ ์ํ denoising autoencoder์ธ BART๋ฅผ ์๊ฐํ์๋ค. BART๋ text๋ฅผ ์์์ noising ํจ์๋ก ์์์ํค๊ณ , model์ ํ์ต์์ผ ๊ธฐ์กด์ text๋ฅผ ๋ณต์ํ๋ ๋ฐฉ์์ผ๋ก ํ์ต๋์๋ค. BART๋ Transformer ๊ธฐ๋ฐ์ NMT architecture์ ์ฌ์ฉํ์๋ค. ์ด architecture์ ๊ฐ๋จํจ์๋ ๋ถ๊ตฌํ๊ณ , BERT์ GPT์ธ์ ๋ค๋ฅธ pre-training scheme์ ์ ๊ทํํ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ ์๋ณธ ๋ฌธ์ฅ์ ์์๋ฅผ ์์๋ก ์๊ณ ํ ์คํธ ๋ฒ์๊ฐ ๋จ์ผ ๋ง์คํฌ ํ ํฐ์ผ๋ก ๋์ฒด๋๋ ์๋ก์ด in-filling scheme์ ์ฌ์ฉํ์ฌ ์ต์์ ์ฑ๋ฅ์ ์ฐพ๋ ์ฌ๋ฌ noising ๋ฐฉ์์ ํ๊ฐํ์๋ค. BART๋ text generation์ ๋ํด fine-tune๋ ๋ ํนํ ํจ๊ณผ์ ์ด์์ผ๋, ๋ค๋ฅธ comprehension task์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Intriduction
2. Model
2-1. Architecture
2-2. Pre-training BART
3. Fine-tuning BART
4. Comparing Pre-training Objectives
4-1. Comparison objectives
4-2. Results
5. Analysis
1. Introduction
self-supervised method๋ ๋ค์ํ NLP task์์ ๋์ฌ๊ฒจ ๋ณผ๋งํ ์ฑ๊ณต์ ๋ฌ์ฑํ์๋ค. ๊ฐ์ฅ ์ฑ๊ณตํ ๋ฐฉ์ ์ค ํ๋๋ MLM์ธ๋ฐ, ๋๋คํ๊ฒ ๋จ์ด๋ค์ด mask out๋์ด ์์ ๋, text๋ฅผ ๋ค์ ์ฌ๊ฑดํ๋๋ก ํ์ต๋ denoising autoencoder์ด๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ masked token์ ๋ถํฌ๋ฅผ ํฅ์์ํค๋ฉด์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์๋ค. ๋ง์คํน๋ ํ ํฐ์ด ์์ธก๋๋ ์์ ๋ฐ ๋ง์คํน๋ ํ ํฐ์ ๋์ฒดํ ์ ์๋ context๋ก ๋ง์ด๋ค. ํ์ง๋ง, ์ด๋ฌํ method๋ ๋ณดํต ํน์ ์ ํ์ end task์ ์ง์คํ๋๋ฐ, ์ด๋ ์ด๋ค์ ์์ฉ ๋ฅ๋ต์ ์ ํํ๋ค.
๋ ผ๋ฌธ์์๋, BART๋ฅผ ์๊ฐํ์๋ค. BART๋ model์ Bidirectional๊ณผ Auto-Regressive Transformer์ ํฉ์ณ์ pre-train ํ์๋ค. BART๋ denoising autoencoder๋ก ๋ค์ํ ๋ฒ์์ end task์ ์์ฉ๋ ์ ์๋ seq2seq model๊ณผ ํจ๊ป ๋ง๋ค์ด์ก๋ค. Pre-training์ ๋ค์์ ๋ ๋จ๊ณ๋ก ์งํ๋๋ค.
- text๋ ์์์ noising function์ ์ํด ์์๋
- seq2seq model์ด ๊ธฐ์กด์ text๋ฅผ ๋ณต์ํจ์ผ๋ก์จ ํ์ต
BART๋ ๊ธฐ์กด์ Transformer ๊ธฐ๋ฐ์ NMT architecture์ ์ฌ์ฉํ์๋ค.์ด๋ ๊ฐ๋จํ์ง๋ง, BERT, GPT ์ธ์๋ ํ์ฌ์ ์ฌ๋ฌ pre-training scheme์ ์ ๊ทํํ ์ ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ณด๋ผ.
์ด๋ฌํ ์ ์ ์ ์ค์ ์ฅ์ ์ค ํ๋๋ flexibility์ noise๋ฅผ ์ฃผ๋ ๊ฒ์ด๋ค. ๊ธธ์ด ๋ณ๊ฒฝ์ ํฌํจํ์ฌ ์๋ณธ text์ ์์์ ๋ณํ์ ์ ์ฉํ ์ ์๋ค. ์ต๊ณ ์ ์ฑ๋ฅ์ ์ฐพ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ noising ๋ฐฉ์๋ค์ ๋ํด ํ๊ฐ๋ฅผ ํ์๋ค. ๊ธฐ์กด ๋ฌธ์ฅ์ ์์๋ฅผ ๋๋คํ๊ฒ ์ ํํ๊ณ ์๋ก์ด in-filling scheme์ ์ฌ์ฉํ๊ณ ์ฌ๊ธฐ์ ์์์ ๊ธธ๊ธฐ์ text๋ ํ๋์ mask token์ผ๋ก ๋์ฒด๋์๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๊ธฐ์กด BERT์ word masking๊ณผ NSP๋ฅผ model์ด ์ ๋ฐ์ ์ธ ๋ฌธ์ฅ ๊ธธ์ด์ ๋ํด ์ถ๋ก ํ๊ณ input์ ๋ํด ๋์ฑ ๊ธด ๋ฒ์์ ๋ณํ์ ํ๋๋ก ๊ฐ์ํ์ฌ ์ ๊ทํํ์๋ค.
BART๋ ๋ํ fine-tuning์ ๋ํด ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ machine translation์ ์ํ ์๋ก์ด scheme์ ์ ์ํ์๋๋ฐ, ์ฌ๊ธฐ์ BART ๋ชจ๋ธ์ ๋ช ๊ฐ์ ์ถ๊ฐ์ ์ธ transformer layer์์ ์์ฌ์ง๋ค. ์ด๋ฌํ layer๋ ๋ณธ์ง์ ์ผ๋ก BART์ ๋ํ ์์ ํ๋ก BART๋ฅผ pre-trained target-side LM์ฒ๋ผ ์ฌ์ฉํ์ฌ, ์ธ๊ตญ์ด๋ฅผ noised ์์ด๋ก ๋ฒ์ญํ๊ธฐ ์ํด ํ์ต๋์๋ค.
2. Model
BART๋ denoising autoencoder๋ก ์์๋ ๋ฌธ์๋ฅผ ๊ธฐ์กด์ ๋ฌธ์๋ก ๋งคํํ๋ค. BART๋ ์์๋ text์ ๋ํ bidirectional encoder์ L2R autoregressive decoder๊ณผ ํจ๊ป seq2seq model์ฒ๋ผ ์์ฉ๋ ์ ์๋ค. pre-training์ ์ํด, ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ๋ฌธ์์ ๋ํ negative log likelihood๋ฅผ ์ต์ ํํ์๋ค.
2-1. Architecture
BART๋ ํ์ค์ seq2seq Transformer architecture์ ์ฌ์ฉํ์์ง๋ง, ์์ธ์ ์ผ๋ก GPT๋ฅผ ๋ฐ๋ผ์ ReLU ํ์ฑํ ํจ์๋ฅผ GeLU ํจ์๋ก ๋ฐ๊พธ์๊ณ , ํ๋ผ๋ฏธํฐ๋ฅผ $N(0, 0.02)$๋ก ์ด๊ธฐํํ์๋ค. ๋ ผ๋ฌธ์ base model์ 6๊ฐ์ encoder์ decoder layer์ ์ฌ์ฉํ์๊ณ , large model์ 12๊ฐ์ encoder์ decoder layer์ ์ฌ์ฉํ์๋ค. BART๋ BERT์ ๋งค์ฐ ์ ์ฌํ๋ ๋ค์๊ณผ ๊ฐ์ ์ฐจ์ด์ ์ ๊ฐ์ง๋ค.
- decoder์ ๊ฐ ๋ ์ด์ด๋ encoder์ final hidden layer์ cross-attention์ ์ํํจ
- BART๋ ์ถ๊ฐ์ ์ธ feed-forward network๋ฅผ ์ฌ์ฉํ์ง ์์์. ๋์ ์ด๋ 10% ์ ๋์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฆ๊ฐ์์ผฐ๋ค.
2-2. Pre-training BART
BART๋ ์์๋ ๋ฌธ์์ ๋ณต์ ์์ค์ ์ต์ ํํจ์ผ๋ก์จ ํ์ต๋๋ค. ๋ณต์ ์์ค์ decoder์ ์ถ๋ ฅ๊ณผ ๊ธฐ์กด ๋ฌธ์ ๊ฐ์ ์ฐจ์ด์ cross-entropy ๊ฐ์ด๋ค. ํ์กดํ๋ denoising autoencoder๋ค์ ํน์ noising scheme์ ๋ํ ๋ง์ถค์ธ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, BART๋ ์ด๋ค ์ ํ์ ๋ฌธ์ ์์์ ๋ํด์๋ผ๋ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ์๋ค.
๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๊ฐ์ ์ด์ ์ ์ ์๋๊ณ ์๋ก์ด ๋ณํ์ ๋ํด ์คํ์ ์งํํ์์ง๋ง, ๋ค๋ฅธ ์๋ก์ด ๋์์ฑ ์ ๋ฐ์ ์ ๋ํ ์๋นํ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ณํ์ ํฌ์คํธ๋ฅผ ์ญ์ฑ ์ฝ์ด์ฃผ๊ธธ ๋ฐ๋ผ๊ณ , example์ ๋ค์์ ๊ทธ๋ฆผ 2์ ๋ํ๋ ์๋ค.
- Token Masking: random token์ [MASK] ํ ํฐ์ผ๋ก ๋ณํ
- Token Deletion: ๋๋คํ token์ด ์ญ์ ๋. masking๊ณผ ๋ฌ๋ฆฌ token์ ์ญ์
- Text Infilling: span์์ token์ด ์ผ๋ง๋ ์ฌ๋ผ์ก๋์ง ์์ธกํ๋๋ก ๋ชจ๋ธ์ ํ์ต์ํด
- Sentence Permutation: ๋ฌธ์ฅ์ ์์๋ฅผ ๋๋คํ๊ฒ ์๊ธฐ
- Document Rotation: ๋๋คํ๊ฒ ์ ํ๋ ํ ํฐ์ด ๋งจ ์์ ์ค๋๋ก ํ์ ์ ์ํด. ๋ชจ๋ธ์ด ๋ฌธ์์ ์์ ๋ถ๋ถ์ ์์๋ด๋๋ก ํ์ต์ํด
3. Fine-tuning BART
BART์ ์ํด ์์ฑ๋ representation์ downstream ์์ฉ์ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ค.
- Sequence Classification Tasks: ๋๊ฐ์ input์ด encdoer์ decoder๋ก ๋ค์ด๊ฐ๊ณ , final decoder ํ ํฐ์ final hidden state๊ฐ multi-class ์ ํ ๋ถ๋ฅ๊ธฐ์ ๋ค์ด๊ฐ๋ค. ์ด๋ BERT์ CLS์ ์ ์ฌํ๋ค.
- Token Classification Tasks: ์์ฑ๋ ๋ฌธ์๊ฐ encoder์ decoder๊ฐ ๋ค์ด๊ฐ๊ณ , decoder์ ๋งจ ์ hidden state๋ฅผ ๊ฐ ๋จ์ด์ ๋ํ representation์ฒ๋ผ ์ฌ์ฉํ๋ค.
- Sequence Generation Tasks: BART๋ autoregressive decoder์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ๋ฐ๋ก generation task์ fine-tune๋ ์ ์๋ค. encoder๋ก input sequence๊ฐ ๋ค์ด๊ฐ๋ฉด, decoder๋ output์ ์๋ํ๊ท์ ์ผ๋ก ์์ฑํ๋ค.
- Machine Translation: pre-trained encoder์ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ง๋ง, decoder์ pre-trained LM์ ์ฌ์ฉํ๋ ๊ฒ์ ์ ํ์ ์ด์๋ค. ๋ ผ๋ฌธ์์๋ BART model์ machine translation์ ์ํ ํ๋์ pre-trained decoder์ฒ๋ผ ์ฌ์ฉํ์ฌ ์ด๊ฒ์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์คฌ๋ค. ์ฌ๊ธฐ์ bitext์์ ํ์ตํ ์๋ก์ด encoder parameter set๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ๊ฐ๋ฅํ์๋ค.
Machine Translation์ ๋ํด ์ข ๋ ์์ธํ ๋งํ๋ฉด, ๋ ผ๋ฌธ์์๋ BART์ encoder embedding layer์ ์๋กญ๊ฒ ๋๋คํ๊ฒ ์ด๊ธฐํ๋ encoder๋ก ๋์ฒดํ์๋ค. ์๋ก์ด encoder๋ ๊ธฐ์กด์ BART model๋ก๋ถํฐ ๋์จ ๋ถ๋ฆฌ๋ vocabulary๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ source encoder๋ฅผ ๋ ๊ฐ์ ์คํ ์ผ๋ก ํ์ตํ์๋ค. BART์ output์์ ๋ถํฐ CE loss ์ญ์ ํ๋ฅผ ํ์ฉํ์๋ค.
- ๋๋คํ๊ฒ ์ด๊ธฐํ๋ source encoder, BART positional embedding, self-attention input projection์ ์ ๋ฐ์ดํธ.
- ๋ชจ๋ ๋ชจ๋ธ์ ๋ํด ์ ์ ์์ ๋ฐ๋ณต
4. Comparing Pre-training Objectives
BART๋ ์ด์ ์ ์ฐ๊ตฌ๋ค๋ณด๋ค pre-training ๋์ค์ ๋์ฑ ๋์ ๋ฒ์์ noising scheme์ ์ง์ํ๋ค. ๋ ผ๋ฌธ์์๋ base-size model์ ์ฌ์ฉํด์ option์ ๋น๊ตํ์๋ค.
4-1. Comparison Objectives
๋ง์ pre-training objective๋ค์ด ์ ์๋์์ง๋ง, ์ด๋ฌํ objective๋ค ๊ฐ์ ์ ๋นํ ๋น๊ต๋ training data, training resources, architectural ์ฐจ์ด ๋๋ฌธ์ ์ํ๋๊ธฐ ์ด๋ ค์ ๋ค. ๋ ผ๋ฌธ์์๋ ๊ตฌ๋ณ๊ณผ ์์ฑ์ ์ํ ์ต๊ทผ์ ์ ์๋ ๊ฐ๋ ฅํ pre-training ๋ฐฉ์์ ์ฌ์ฌ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ๋ฅํ ํ pre-train ๋ชฉํ์ ๊ด๋ จ ์๋ ์ฐจ์ด์ ์ ํต์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์์๋ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด learning rate์ layer normalisation์ ์ฌ์ฉ์ ๋ฏธ๋ฌํ ๋ณํ๋ฅผ ์ฃผ์๋ค. ์์ธํ ์ธ๋ถ์ฌํญ๋ค์ ์๋ตํ๋๋ก ํ๊ฒ ๋ค.
๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ์คํ์ ์งํํ์๋ค.
- task๋ฅผ ํ์ค seq2seq ๋ฌธ์ ๋ก ์ฌ๊ธฐ๊ณ , ์ฌ๊ธฐ์ encoder์ ๋ํ source input๊ณผ target์ decoder output์ผ๋ก ๋๊ฑฐ๋
- source๋ฅผ decoder์ target์ ์ ๋์ฌ์ฒ๋ผ ์ถ๊ฐํ๊ณ ์ํ์ค์ ๋์ ๋ถ๋ถ์์๋ง ์์ค๋๊ฒ ํ์๋ค
4-2. Results
์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 1๊ณผ ๊ฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ๋ฌ ํธ๋ ๋๋ ๋ค์๊ณผ ๊ฐ๋ค.
- task์ ๋ฐ๋ผ pre-training ์ฑ๋ฅ์ด ๋ค์ํ๊ฒ ๋ณํ
- Token masking์ ์ด๋ค ๊ฒ์ ์ํฉ์ ๋ฐ๋ผ ์จ์ผ ํ๋์ง๊ฐ ์ค์
- L2R pre-training์ด generation์ ์ฑ๋ฅ์ด ๋์
- Bidirectional encoder๊ฐ SQuAD์ ์ฑ๋ฅ์ ๋ํด ์ค์ํ์์
- pre-training ๋ชฉํ๋ ์ค์ํ ์์๊ฐ ์๋
- BART๊ฐ ์ผ๊ด๋๊ฒ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์
5. Analysis
BART๋ ์์ฝ ๋ฌธ์ ์ ๋ํด ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ์๋ํ๋ ๋ฉํธ๋ฆญ์ ๋์ด์ BART์ ์ฑ๋ฅ์ ์ดํดํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ generation์ ๋ถ์ํ์๋ค.
๋๋์ง ์๊ฒ๋ model์ output๋ ์์ด์ ๋ํด ์ ์ฐฝํ๊ณ ๋ฌธ๋ฒ์ ์ผ๋ก ์๋ง์๋ค. ํ์ง๋ง, model์ output์ ๋งค์ฐ ์ถ์์ ์ด๊ณ , input์ ๋ช๋ช ๊ตฌ๋ฌธ์ ๋๊ฐ์ด ์นดํผํด์๋ค. output์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ค์ ์ผ๋ก๋ ์ ํํ๊ณ , ์ ๋ ฅ ๋ฌธ์ ์ ์ฒด์ ์ง์ ์ฆ๊ฑฐ๋ฅผ ๋ฐฐ๊ฒฝ ์ง์๊ณผ ํตํฉํ์๋ค. ์์๋ค์ ๋ณด๋ฉด text๋ก๋ถํฐ ์ถ๋ก ์ ํ๊ธด ํ๋, source์ ์ํด support๋์ง๋ ์๋ ๊ฒ์ฒ๋ผ ๋ณด์๋ค.
์ด๋ฌํ ์ํ๋ค์ BART pre-training์ด ์์ฐ์ด ์ดํด์ ์์ฑ์ ๊ฐ๋ ฅํ ์กฐํฉ์ ํ์ตํ๋ค๋ ๊ฒ์ ์ค๋ช ํ๊ณ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/1910.13461