The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ ํตํฉ๋ Vision-Language Pre-training(VLP) model์ ์ ์ํ์๋ค. ๋ชจ๋ธ์ ๋ค์์ ๋ ๊ฐ์ง๋ฅผ ํตํฉํ์๋ค. ์ด๋ก ์ธํด VLP๋ encoder์ decoder๋ฅผ ์๋ก ๋ค๋ฅธ ๊ฐ๊ธฐ์ ๋ชจ๋ธ๋ก ๊ตฌํํ method๋ค๊ณผ ๋ค๋ฅธ ์ ์ ๊ฐ์ง๊ฒ ๋์๋ค.
- visual-language ์ดํด ๋๋ ์์ฑ์ ์ํด fine-tune
- encoding & decoding์ ์ํด ๊ณต์ ๋ multi-layer transformer๋ฅผ ์ฌ์ฉ
ํตํฉ VLP model์ 2๊ฐ์ task์ ๋ํ unsupervised learning ๋ชฉํ๋ฅผ ์ฌ์ฉํด์ ๊ฑฐ๋ํ ์์ image-text ์ง์์ pre-train ๋์๋ค: bi-directional & sequence-to-sequence(seq2seq) masked vision-language ์์ธก. ๋ task๋ ์์ธก ์กฐ๊ฑด์ด ์ด๋ค ์ปจํ ์คํธ์ ์๋์ง์ ๋ฐ๋ผ ๋ค๋ฅด๋ค. ์ด๋ ๊ณต์ Transformer ๋คํธ์ํฌ์ ๋ํ ํน์ self-attention mask๋ฅผ ํ์ฉํ์ฌ ์ ์ด๋๋ค. VLP๋ ์ฒ์์ผ๋ก ์๋ก ๋ค๋ฅธ vision-language ์์ฑ ๋ฐ ์ดํด task์ธ, image captioning๊ณผ visual question answering์์ SoTA๋ฅผ ๋ฌ์ฑํ์๋ค.
Table of Contents
1. Introduction
2. Vision-Language Pre-training
2-1. Vision-Language Transformer Network
2-2. Pre-training Objectives
3. Fine-tuning for Downstream Tasks
3-1. Image Captioning
3-2. Visual Question Answering
4. Experiments & Results
1. Introduction
๋ค์์ ํ 1์ ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์์ BERT๋ก๋ถํฐ ๋ง๋ค์ด์ง vision-language pre-training ๋ชจ๋ธ๋ค์ ๋ํด ์์ฝํด์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ๋ชจ๋ธ๋ค์ 2๋จ๊ณ์ ํ์ต ์คํค๋ง๋ฅผ ๊ฐ์ง๊ณ ์๋๋ฐ, ์ด๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ฒซ ๋ฒ์งธ ๋จ๊ณ: pre-training. ๊ฑฐ๋ํ ์์ image-text ์ง์์ intra-modality ๋๋ cross-modality ๊ด๊ณ์ ๊ธฐ๋ฐํด์ masked word ํน์ image region์ ์์ธกํจ์ผ๋ก์จ vision-language representation์ ํ์ตํจ.
- pre-trained model์ downstream task์ ์ ์ํ๊ธฐ ์ํด fine-tune ๋๋ค.
์๋ก ๋ค๋ฅธ pre-trained model์ ์ฌ์ฉํ์ฌ ๊ฐ๊ฐ์ downstream task์ ๋ํด์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ์ง๋ง, ๋ฒ์ฉ์ ์ผ๋ก ์์ฉ ๊ฐ๋ฅํ ํ๋์ ํตํฉ๋ ๋ชจ๋ธ์ pre-train ํ๋ ๊ฒ์ ์ด๋ ค์ด ๊ณผ์ ๋ก ๋จ์์๋ค. ์ง๊ธ๊น์ง์ ๋๋ถ๋ถ์ pre-trained model๋ค์ understanding task์์๋ง ๋ฐ์ ๋์๊ณ , ์ด๋ค์ ํ 1์ 'understanding-based only'๋ก ํ์๋์ด ์๋ค. ๋๋ ์์ฑ task๋ฅผ ์ํด ๋ฐ๋ก๋ฐ๋ก ํ์ต๋์ด์ผ ํ๋ ๋ค์ํ modality-specific encoder์ decoder๋ก ์ด๋ฃจ์ด์ ธ ์๋ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ด๋ค. ์๋ฅผ ๋ค์ด, ํ 1์ VideoBERT์ CBT๋ pre-training์ encoder์์๋ง ํ๊ณ decoder์์๋ ํ์ง ์๋๋ค. ์ด๋ encoder์ ์ํด ํ์ต๋๋ cross-modal representation๊ณผ ์์ฑ์ ์ํ decoder์ ์ํด ํ์ํ representation ์ฌ์ด์ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ ์ ์๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ ์ผ๋ฐ์ฑ์ ํด์น ์ ์๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด ๋ถ์ผ์น๋ฅผ ์ ๊ฑฐํ๊ณ encoding๊ณผ decoding ๋ ๋ชจ๋์ ๊ดํ ํตํฉ๋ representation์ pre-training ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ฐพ์๋ด์๋ค. ์ด๋ฌํ ํตํฉ๋ representation์ ๋์ฑ ํจ๊ณผ์ ์ธ cross-task ์ง์ ๊ณต์ ์ ์๋ก ๋ค๋ฅธ task์ ๋ํด ์๋ก ๋ค๋ฅธ pre-training์ ํ ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฐ ๋น์ฉ์ ์ค์ฌ์ค๋ค.
์ด๊ฒ์ ์ํ์ฌ vision-language ์์ฑ ๋ฐ ์ดํด task ๋ ๋ชจ๋์ ๋ํด fine-tune๋ ์ ์๋ ํตํฉ encoder-decoder model์ธ Vision-Language Pre-training(VLP)๋ฅผ ์ ์ํ์๋ค. VLP model์ encoding๊ณผ decoding์ ์ํด ๊ณต์ multi-layer Transformer ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๊ณ , ๊ฑฐ๋ํ ์์ image-caption ์ง์์ pre-train ๋๊ณ , 2๊ฐ์ unsupervised vision-language task์ ๋ํด ์ต์ ํ๋๋ค: bi-directional & seq2seq masked language prediction. ๋ task๋ ์์ธก ์กฐ๊ฑด์ด ์ด๋ค ์ปจํ ์คํธ์ ์๋์ง์ ๋ฐ๋ผ ๋ค๋ฅด๋ค. ์ด๋ ๊ณต์ Transformer ๋คํธ์ํฌ์ ๋ํ ํน์ self-attention mask๋ฅผ ํ์ฉํ์ฌ ์ ์ด๋๋ค.
์ ์๋ VLP model์ ํ 1์ ๋ค๋ฅธ BERT ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๋นํด 2๊ฐ์ง์ ์ด์ ์ ๊ฐ์ง๋ค.
- encoder & decoder๋ฅผ ํตํฉํด์ ๋ฒ์ฉ์ vision-language representation์ ๋์ฑ ํ์ต. ์ด๋ก ์ธํด vision-language ์์ฑ๊ณผ ์ดํด task์์ ๋์ฑ ์ฝ๊ฒ fine-tune ๋.
- ํตํฉ๋ pre-training ํ๋ก์์ ๋ ๋ ๊ฐ์ vision-language ์์ธก task(bi-directional + seq2seq)๋ฅผ ์ํ ํ๋์ model architecture๋ฅผ ์ด๋. ์ด๋ task-specific metric ์์ฒญ๋ ์ฑ๋ฅ ์์ค ์์ด ์ฌ๋ฌ ๊ฐ์ pre-training model, ๊ทธ๋ฆฌ๊ณ ์๋ก ๋ค๋ฅธ ์ ํ์ task๋ฅผ ์ํ pre-training model์ ์ํํ ํ์๊ฐ ์์๋ค.
2. VIsion-Language Pre-training
๋ ผ๋ฌธ์์๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ $I$๋ก ๋๊ณ ๊ด๋ จ๋ ํ๊น ๋ฌธ์ฅ ์ค๋ช (words)์ $S$๋ก ํํํ์๋ค. ๊ทธ๋ฆฌ๊ณ object detector๋ฅผ ์ฌ์ฉํด์ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ณ ์ ๋ ์ $N$์ object ์์ญ์ ์ถ์ถํ์๋๋ฐ, ์ด๋ฅผ $\left\{ r_1, ..., r_{N} \right\}$์ผ๋ก ๋ํ๋ด๊ณ ํด๋นํ๋ region feature๋ฅผ $R = [R_1, ..., R_{N}] \in \mathbb{R}^{d \times N}$๋ก, region object์ ๋ผ๋ฒจ์ $C = [C_1, ..., C_N] \in \mathbb{R}^{l \times N}$๋ก, region์ geometric ์ ๋ณด๋ฅผ $G = [G_1, ..., G_N] \in \mathbb{R}^{o \times N}$์ผ๋ก ๋ํ๋ด์๋ค. ์ฌ๊ธฐ์ $d$๋ ์๋ฒ ๋ฉ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๊ณ , $l$์ object detector์ object class์ ์๋ฅผ ๋ํ๋ธ๋ค. ์ฌ๊ธฐ์ $o = 5$๋ region boundary ์์์ ์ผ์ชฝ ์๋จ ๋ฐ ์ค๋ฅธ์ชฝ ํ๋จ ๋ชจ์๋ฆฌ ์ขํ์ ๋ํ 4๊ฐ์ ๊ฐ๊ณผ ์๋ ์์ญ์ ๋ํ 1๊ฐ์ ๊ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ค. $S$์ ๋จ์ด๋ค์ one-hot vector๋ก ํํ๋๊ณ ์๋ฒ ๋ฉ ์ฌ์ด์ฆ $e$๋ฅผ ์ฌ์ฉํ์ฌ word embedding์ผ๋ก ์ธ์ฝ๋ฉ ๋๋ค: $y_t \in \mathbb{R}^{e}$ ์ฌ๊ธฐ์ $t \in \left\{ 1, 2, ..., T \right\}$์ $T$๋ ๋ฌธ์ฅ์ ๊ธธ์ด๋ฅผ ๋ํ๋ธ๋ค.
2-1. Vision-Language Transformer Network
๋ ผ๋ฌธ์ vision-language Transformer ๋คํธ์ํฌ๋ Transformer encoder์ decoder๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก ํตํฉํ์๋๋ฐ, ์ด๊ฒ์ด ๊ทธ๋ฆผ 2์ ์ผ์ชฝ์ ๋ํ๋ ์๋ค. ๋ชจ๋ธ์ ์ ๋ ฅ์ class-aware region embedding, word embedding, 3๊ฐ์ ์คํ์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ฌ๊ธฐ์ region embedding์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
$r_i = W_{r}R_{i} + W_{p}[LayerNorm(W_{c}C_{i})|LayerNorm(W_{g}G_{i})]$
์ฌ๊ธฐ์ $[\cdot|\cdot]$์ feature ์ฐจ์ ๊ฐ์ ์ฐ๊ฒฐ์ ๋ํ๋ด๊ณ , LayerNorm์ LayerNormalization์ ์๋ฏธํ๋ค. ๋ ๋ฒ์งธ ํญ์ BERT์ positional embedding์ ํ๋ด ๋ด์ง๋ง, ์ถ๊ฐ์ ์ธ region class ์ ๋ณด๋ฅผ ์ถ๊ฐํ๊ณ , $W_r, W_p, W_c, W_g$๋ ์๋ฒ ๋ฉ ๊ฐ์ค์น๋ฅผ ์๋ฏธํ๋ค. ์ฌ๊ธฐ์ class-aware region ์๋ฒ ๋ฉ์ ๋ํ๋ด๊ธฐ ์ํด $r_i \in \mathbb{R}^{d} (i \in \left\{ 1, 2, ..., N\right\})$ ํ๊ธฐ๋ฒ์ ์ค๋ฒ๋ก๋ํ๋ค. ๊ฒ๋ค๊ฐ BERT์ฒ๋ผ segment embedding์ $r_i$์ ์ถ๊ฐํ์๋ค.
word embedding์ BERT์ ์ ์ฌํ๊ฒ ์ ์๋์ด $y_t$์ positional embedding๊ณผ segment embedding์ ์ถ๊ฐํ๊ณ , ์ด ๊ฐ์ ๋ค์ $y_t$์ ์ค๋ฒ๋ก๋๋๋ค. ๊ทธ๋ฆฌ๊ณ 3๊ฐ์ ์คํ์ ํ ํฐ [CLS], [SEP], [STOP]์ ์ ์ํ์๋ค. [CLS]๋ visual ์ ๋ ฅ์ ์์์ ๋ํ๋ด๊ณ , [SEP]๋ visual ์ ๋ ฅ๊ณผ ๋ฌธ์ฅ ์ ๋ ฅ ๊ฐ์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๋ด๊ณ , [STOP]๋ ๋ฌธ์ฅ์ ๋์ ๋ํ๋ธ๋ค. [MASK] ํ ํฐ์ masked word๋ฅผ ๋ํ๋ธ๋ค.
2-2. Pre-training Objectives
BERT MLM ๋ชฉํ๋ ์ ๋ ฅ ๋ฌธ์ฅ์์ ๋๋ค ํ๊ฒ ํ ํฐ๋ค์ ๋ง์คํนํด์ ํ์ต์ ํตํด ๊ทธ ๋ง์คํน๋ ํ ํฐ์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ฅผ ์ํด ๋ชจ๋ธ์ ๋ฌธ๋งฅ์ ํ์ ํ๋ LM์ ์์ฑํ ์ ์์ด์ผ ํ๋ค. ๋ ผ๋ฌธ์์๋ ๋๊ฐ์ ์คํค๋ง๋ฅผ ๋ฐ๋ผ์ ๋ ๊ฐ์ ๊ตฌ์ฒด์ ์ธ ๋ชฉํ๋ฅผ ๊ณ ๋ คํ์๋ค: bi-directional & seq2seq
๊ทธ๋ฆผ 2์ ์ค๋ฅธ์ชฝ์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๋ ๋ชฉํ์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ self-attention mask์ ์๋ค. bi-directional objective๋ฅผ ์ํด ์ฌ์ฉ๋๋ mask๋ ์๋ฐฉํฅ์ฑ์ผ๋ก visual & language modality ๊ฐ์ ๋ฉ์์ง ํ๋ฆ์ด ๊ฐ๋ฅ์ผ ํ๋ค. ๋ฐ๋ฉด์ seq2seq๋ ๋ฏธ๋์ ๋จ์ด๋ ์ฐธ์กฐ ๋ถ๊ฐํด์ auto-regressive๋ฅผ ๋ง์กฑํ๋ค. ์ด๋ฅผ ๊ณต์์ ์ผ๋ก ํํํ๋ฉด ์ฒซ ๋ฒ์งธ Transformer block์ ์ ๋ ฅ์ $H^{0} = [r_{[CLS]}, r_1, ..., r_N, y_{[SEP]}, y_1, ..., y_T, y_{[STOP]}] \in \mathbb{R}^{d \times U}$๋ก ์ ์๋๋ค. ์ฌ๊ธฐ์ $U = N+T+3$์ด๊ณ , ์๋ก ๋ค๋ฅธ Transformer์ ๋ ๋ฒจ์์ encoding์ $H^{l} = Transformer(H^{l-1}), l \in [1, L]$๋ก ์ ์๋๋ค. ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก self-attention mask๋ฅผ $M \in \mathbb{R}^{U \times U}$๋ก ์ ์ํ์๊ณ , ์ฌ๊ธฐ์
$M_{jk} = \left\{\begin{matrix}
0, allow to attend \\ -\infty, prevent from attending
\end{matrix}\right.$
๊ฐ๋จํจ์ ์ํด ๋ ผ๋ฌธ์์๋ self-attention ๋ชจ๋์์ ํ๋์ attention head๋ฅผ ๊ฐ์ ํ์๋ค. ๊ทธ๋ค์์ $H^{l-1}$์์ self-attention ์ถ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค:
$A^{l} = softmax(\frac {Q^{\top}K}{\sqrt{d}} + M)V^{\top}, $
$V = W_{V}^{l}H^{l-1}, Q = W_{Q}^{l}H^{l-1}, K = W_{K}^{l}H^{l-1}$
์ฌ๊ธฐ์ $W_{V}^{l}, W_{Q}^{l}, W_{K}^{l}$์ ์๋ฒ ๋ฉ ๊ฐ์ค์น์ด๋ค. ์ค๊ฐ ๋ณ์ $V, Q, K$๋ self-attention์ฒ๋ผ ๊ฐ๊ฐ value, query, key๋ฅผ ๋ํ๋ธ๋ค. $A^{l}$์ ์ถ๋ ฅ $H^{l}$์ ํ์ฑํ๊ธฐ ์ํด residual connection์ ์ฌ์ฉํ feed-forward layer์ ์ฌ์ฉํจ์ผ๋ก์จ ์ถ๊ฐ์ ์ผ๋ก encoding ๋์๋ค. pre-training ์ค์ ๋ ผ๋ฌธ์์๋ ๋ objective ๊ฐ์ per-batch๋ฅผ ๋ฒ๊ฐ์ ๋์ค๊ฒ ํ๊ณ seq2seq์ bi-directional์ ๋น์จ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ $\lambda$์ $1 - \lambda$๋ฅผ ์ฌ์ฉํด์ ์ ์ํ์๋ค.
๋ ผ๋ฌธ์์๋ ์คํ์ ํตํด region class ํ๋ฅ ($C_i$)์ region feature($r_i$)์ ํตํฉํ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ์ด๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋์ visual representation์ ๊ฐ์ ํ๊ธฐ ์ํด masked region ์์ธก task๊ฐ ์ฌ์ฉ๋๋ ๊ธฐ์กด์ ์์ ๊ณผ ๋ค๋ฅด๊ฒ, masked language ์ฌ๊ฑด์ถ์ ํ์ฉํจ์ผ๋ก์จ ๊ฐ์ ์ ์ผ๋ก visual representation์ ๊ฐ์ ์์ผฐ๋ค. ๋ ผ๋ฌธ์์๋ ๋ํ ์์ ์ด seq2seq ๋๋ bi-directional๋ณด๋ค ์ฝํ ๋ฟ๋ง ์๋๋ผ ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ BERT์์ ๋๋ ์ด๋ฏธ์ง์ ํ ์คํธ ์ฌ์ด์ ์ผ์น๋ฅผ ์์ธกํ๋ ๋งฅ๋ฝ์์ Next Sentence Prediction task๋ฅผ ์ฌ์ฉํ์ง ์๊ธฐ๋ก ์ ํํ์๋ค.
Sequence-to-Sequence inference. seq2seq ํ์ต์ด ์ํ๋๋ ๊ฒ๊ณผ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ๋ ผ๋ฌธ์์๋ ์ง์ ์ ์ผ๋ก VLP์ seq2seq ์ถ๋ก ์ ์ ์ฉํ ์ ์์๋ค.
3. Fine-tuning for Downstream Tasks
3-1. Image Captioning
๋ ผ๋ฌธ์์๋ seq2seq objective๋ฅผ ์ฌ์ฉํ์ฌ pre-trained VLP ๋ชจ๋ธ์ ํ๊น ๋ฐ์ดํฐ์ ์์ fine-tune ํ์๋ค. ์ถ๋ก ์ค์ ๋ ผ๋ฌธ์์๋ ์ฐ์ image region์ ์คํ์ ํ ํฐ [CLS]์ [SEP]๋ก encoding ํ๊ณ [MASK] ํ ํฐ์ ์ฃผ๊ณ word ํ๋ฅ ์ถ๋ ฅ์ ์ํ๋งํจ์ผ๋ก์จ ์์ฑ์ ์์ํ์๋ค. ๊ทธ๋ค์์ ์ด์ ์ ๋ ฅ ๋ฌธ์ฅ์ [MASK] ํ ํฐ์ ๋ค์ ์์ธก์ ์์ํ๊ธฐ ์ํด ์ ๋ ฅ ์ํ์ค์ ์ถ๊ฐ๋๋ค. [STOP] ํ ํฐ์ด ์ ํ๋๋ฉด ์์ฑ์ ๋ฉ์ถฐ์ง๊ฒ ๋๋ค.
3-2. Visual Question Answering
๋ ผ๋ฌธ์์๋ VQA๋ฅผ multi-label ๋ถ๋ฅ ๋ฌธ์ ๋ก ์ ์ํ์๋ค. ์ด ์์ ์์๋ ๋งจ ์์ $k$ ๊ฐ์ ๊ฐ์ฅ ํํ ๋๋ต์ ๋๋ต vocabulary๋ก ์ ํํ๊ณ ํด๋์ค ๋ผ๋ฒจ๋ก ์ฌ์ฉํ๋ open domain VQA์ ์ง์คํ์๋ค. ์ด์ ์ ์ฐ๊ตฌ๋ฅผ ๋ฐ๋ผ์ $k$๋ฅผ 3129๋ก ์ค์ ํ์๋ค.
fine-tuning ์ค์ [CLS]์ [SEP]์ ๋ง์ง๋ง ์จ๊ฒจ์ง ์ํ์ ์์๋ณ ๊ณฑ ์์ ๋ค์ธต ํผ์ ํธ๋ก (Linear + ReLU + Linear + Sigmoid)์ด ํ์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ ์ถ๋ ฅ ์ ์๋ฅผ cross-entropy loss๋ฅผ ์ฌ์ฉํด์ soft answer label์ ๊ดํ์ฌ ์ต์ ํํ์๋ค. ์ด์ ์๋ pre-training ์ค์ ํ๊น ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ task-specific objective๋ฅผ ์ฌ์ฉํ์์ผ๋, VLP์ pre-training์ ๊ทธ๋ด ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋์ฑ general ํด์ง๋ค.
4. Experiments & Results
Data preparation & Implementation details. ์ด ๋ถ๋ถ์ ๊ดํด์๋ ๋ณธ ํฌ์คํธ์์ ๋ฐ๋ก ๋ค๋ฃจ์ง ์์ ํ ๋ ์ด ๋ถ๋ถ์ ๋ํด ๊ถ๊ธํ๋ค๋ฉด ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
Model variants & metrics. VLP์ pre-training์ ํจ๊ณผ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์ฒ์์ pre-training์ ์ฌ์ฉํ์ง ์๋ baseline์ ํฌํจํ์๋ค. ๊ทธ๋ค์์ ๋ชจ๋ธ์ ๊ทนํ์ ์ธํ ์ธ $\lambda = 1$ (seq2seq pre-training only)์ $\lambda = 0$ (bi-directional only)๋ฅผ ํฌํจํ์ฌ ์ด๋ป๊ฒ ๊ฐ๊ฐ์ objective๊ฐ ์๋ก ๋ค๋ฅธ downstream task์ ๋ํด ์๋ํ๋์ง ์์๋ณด์๋ค. full model์ ์ด ๋ objective ๊ฐ์ ๊ณต๋์ผ๋ก ํ์ต๋๋ค. fine-tuning์ pre-training์ ๊ตฌ์ฑ์ ์ฐ์ฐํ์ง ์๊ณ ๋๊ฐ์ด ์ํ๋์๋ค. ๋ ผ๋ฌธ์์๋ image captioning์ ์ํ ์ผ๋ฐ์ ์ธ language metrics๋ฅผ ์ฌ์ฉํ์๋ค. ์ฌ๊ธฐ์๋ VQA์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ Bleu@4, METEOR, CIDEr, SPICE๊ฐ ํฌํจ๋์ด ์๋ค.
Comparisons agains SoTAs. test set์์ VLP์ SoTA method๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ๊ฐ ํ 2์ ๋ํ๋ ์๋ค. ๋ ผ๋ฌธ์์๋ published SoTA์ ์์ (ํ 2์ ์์ชฝ ๋ถ๋ถ), unpublished work์ ์์ (ํ 2์ ์ค๊ฐ ๋ถ๋ถ), VLP(ํ 2์ ์๋์ชฝ ๋ถ๋ถ)์ ํฌํจํ์๋ค. ๋ชจ๋ image captioning method๋ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด์๋ง cross-entropy ์ต์ ํ๋ฅผ ์ฌ์ฉํ๋ ๋จ์ผ ๋ชจ๋ธ์ด๋ค. ๋ ผ๋ฌธ์ full model(Unified VLP)์ COCO์ 4๊ฐ ์งํ ์ค 3๊ฐ, VQA 2.0์ ์ ์ฒด ์ ํ๋ ๋ฐ Flickr30k์ 4๊ฐ ์งํ ๋ชจ๋์์ SoTA๋ฅผ ๋ฅ๊ฐํ๋ค. ์ฑ๋ฅ ํฅ์์ CIDEr ์งํ์์ 5.1%, BLEU@4์์ 2.8%์ ์ด๋์ ์ป์๊ณ , Flickr30k์์ ํนํ ์ข์๋ค.
Boost from pre-training. ๋ ผ๋ฌธ์ full model์ baseline model์ด ๋๋ถ๋ถ์ metric์ ๋ํด์ ์๋นํ ๋ง์ง์ ๋จ๊ธธ ์ ์๊ฒ ํด ์คฌ๊ณ , ๊ทธ๋์ VLP์ pre-training ๋ฐฉ๋ฒ์ ๊ฐ์ฌ๋ฅผ ํํ๋ค. Flickr30k์ CIDEr ๋ฉํธ๋ฆญ์์ 10% ์ด์์ ์ฑ๋ฅ ํฅ์, COCO ๋ฐ B@4์ CIDEr์์ 2% ์ด์์ ์ฑ๋ฅ ํฅ์, Flickr30k์ METEOR์์ ๋ช ๊ฐ์ง ๋์ ๋๋ ๊ฐ์ ์ฌํญ์ด ์์๋ค. ์์ ๋ฐ์ดํฐ์ ์ ๋๋ถ๋ถ์ vision-language pre-training์ด overfitting ๋ฌธ์ ๋ฅผ ์ํ์ํค๋๋ฐ ์ด์ ์ ์ฃผ์๋ค. ๋ ๊ฐ์ ๊ทนํ์ ์ธํ ์ ๋ชจ๋ธ๋ค์ ๊ฐ์๊ฐ '์ ํธ'ํ๋ task์ ๋ํด์ ๋์ฑ ์ ์๋ํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์๋ฅผ ๋ค์ด seq2seq pre-training alone์ downstream captioning task์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๊ณ , bi-directional pre-training alone์ understanding task์์ ์ ์ด์ ์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง ๋ฐ๋์ ๋ํด์๋ ๊ทธ๋ ์ง ์์๋ค. ์ด๋ค ๊ฐ๊ฐ์ VQA 2.0์์ ์ ํ๋ ๋ฉด์์ ์๋ก์ด SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๊ณต๋ ํ์ต์ ๋ค์ ๋ค๋ฅธ ๋ ๊ฐ์ง ๋ชฉํ์์ ํ์ตํ representation์ ์ ๊ธฐ์ ์ผ๋ก ๊ฒฐํฉํ๊ณ ๋ชจ๋ downstream task์์ ์ฝ๊ฐ ์์๋์์ง๋ง ์ ์ ํ ์ ํ๋๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ engineering ๊ด์ ์์, ์์ฑ task ๋๋ ์ดํด task์ ๋ํด์ ๋ณ๊ฐ์ pre-training model๋ฅผ ๊ฐ์ง๋ค๋ฉด, ์ต์ ์ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ป์ ์ ์๋ค๋ ๊ฒ์ ๋งํ๋ค. model architecture์ ํ๋ผ๋ฏธํฐ ๊ณต์ ๋ฅผ ์ค์ํ๊ฒ ์๊ฐํ๋ค๋ฉด ๊ณต๋ ํ์ต์ ์ข์ ์ ์ถฉ์์ด๋ค.
Impact of pre-training types. base model Transformer๊ฐ ์ด๋ป๊ฒ ์ด๊ธฐํ๋๋๋์ ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ 4๊ฐ์ pre-training ์ ๋๋ฅผ ์ฝํ ๊ฒ์์๋ถํฐ ๊ฐํ ๊ฒ๊น์ง ์ ์ํ์๋ค. ์ด์ ๋ํด์ downstream task์ ๋ํด fine-tuning ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ๊ทธ๋ฆผ 1๊ณผ ํ 3์ ๋ํ๋ ์๋ค. ๊ทธ๋ฆผ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ vision-language pre-training์ downstream task์ ํ์ต ํ๋ก์ธ์ค๋ฅผ ์๋นํ ๊ฐ์ํํ๊ณ ๋ ๋์ ์ ํ๋์ ๊ณตํํ๋ค. [CLS] ๋ฐ [SEP]์ ๊ด๋ จ๋ hidden state๊ฐ pre-train ์ค์ ํ์ต๋์ง ์์์๋ ๋ถ๊ตฌํ๊ณ VQA์ ํ์ต ํ๋ก์ธ์ค๊ฐ ํฌ๊ฒ ๋จ์ถ๋๋ ๊ฒ์ ๊ฐ์น๊ฐ ์๋ค. ์ด๋ vision-language representation์ด ๋ณธ ์ ์๋ ๋๋ฉ์ธ๊ณผ ์์ ์ ๋ํด์ ์ ์ผ๋ฐํํ๊ณ , ์๋ก์ด task์ ๋ํด์๋ ํฉ๋ฆฌ์ ์ด๊ฒ ์ ์๋ํ๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค.
- pre-training์ด ์ ํ ์๋ base model
- bi-directional language pre-training. BERT๋ก๋ถํฐ ์ด๊ธฐํ๋ ๋ชจ๋ธ
- seq2seq & bi-directional language pre-training. UniLM์ผ๋ก๋ถํฐ ์ด๊ธฐํ๋ ๋ชจ๋ธ
- full Vision-Language Pre-training.
๋ ผ๋ฌธ์์๋ ๋ํ caption ์์ฑ์ ์ธก๋ฉด์์ ์ 3๊ฐ์ vision-language pre-training์ด ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ๋ถ์ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์์ language pre-training์ผ๋ก๋ถํฐ ๊ฐ์ค์น๋ฅผ ์ ๋ฌ๋ฐ์์ base model์ ์ด๊ธฐํํ๋ ๊ฒ์ด vision-language pre-training์ ์ด์ ์ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
Region object labels as pretext. ๊ธฐ์กด์ ์ฐ๊ตฌ๋ค์์๋ region object label($C_i$)์ image region feature์ ํ์กฑํ๊ฒ ํ๊ธฐ ์ํ ์ค์ํ ๋ณด์กฐ๋ก ์๊ฐํ์๊ณ , ๋ ผ๋ฌธ์์๋ ์ด์ ๋น์ทํ ๋์์ธ์ ์ฌ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋์ ์ ์ด ๋ผ๋ฒจ์ masked region ๋ถ๋ฅ ๊ตฌ์ค๋ก ์ฌ์ฉํ์๋ค. ์ฌ๊ธฐ์ ๋ ๊ฐ์ ๋์์ธ ์ ํ์ ๋ํด ๋น๊ต๋ฅผ ์งํํ์๋ค. "region label ํ๋ฅ ์ด ์ ๋ ฅ๊ฐ"์ด full model Unified VLP์ ๋๋ฑํ๊ณ , "region label as pretext"์ด ๋ค๋ฅธ ์์ฉ์ผ๋ก ์ฌ์ฉ๋์๋ค. ๊ฒฐ๊ณผ์์ ๋ณด์ด๋ฏ์ด class label์ pretext๋ก ์์ธกํ๋ ๊ฒ์ captioning ์ฑ๋ฅ ์ธก๋ฉด์์ pre-training์ ๋ํด ์ ์ข์ ์ํฅ์ ๋ผ์น๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด object detector์ ํด๋์ค ๋ผ๋ฒจ์ด ํ์ต๋ feature representation์ ์์์ํค๋ ๋ ธ์ด์ฆ๊ฐ ์์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๊ฐ์ ํ์๋ค. ์ด์๋ ๋ฐ๋๋ก ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ๋์ฑ ์ ๋ขฐ์ ์ธ MLM์ ํตํด visual representation์ ๊ฐ์ ํ์๊ณ , ํด๋์ค ๋ผ๋ฒจ์ ์กด์ฌํ๋ ์ค๋ฅ๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ํ์๋ค.
Qualitative results & analyses. ๊ทธ๋ฆผ 3์์ COCO Captions์ VQA 2.0์ ๋ํ qualitative ์์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ฒซ ๋ ๊ฐ์ ์์์ ๋ํด์ vision-language pre-training์ ์ฌ์ฉํ full model์ ์ด๋ฏธ์ง์์ ๋ ๋ง์ ๋ํ ์ผ์ ์บก์ฒํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ง๋ฌธ์ ๋ํด์๋ ์ฌ๋ฐ๋ฅธ ๋๋ต์ ๋ด๋๋๋ค. ์ธ ๋ฒ์งธ ์์์์๋ ๋ชจ๋ method๊ฐ ์๊ฐ์ ์ ์ฌ์ฑ ๋๋ฌธ์ ๊ณค๋๋ผ๋ฅผ ๊ธฐ์ฐจ๋ก ์๋ชป ํ์ ํ์๋ค. question answering์ผ๋ก ์์ ๋, ๋ ผ๋ฌธ์ method๋ ์ฌ๋ฐ๋ฅธ ๋๋ต์ ๋ด๋์ง๋ง GT answer๋ ๋ถ์ ํํ ๋๋ต์ ๋ด๋๋๋ค. ๋ค ๋ฒ์งธ ์์์ ๋ํด์๋ ๋ชจ๋ ๋ชจ๋ธ์ด ์ค์ ๋ก๋ ๋ณดํธ ๋๋ ์นด์ฝ์ ํ๋ ํ๋์ด์ง๋ง, ์ํ์ผ๋ก ์๋ชป ๋ถ๋ฅํ์๋ค. ์ด๊ฒ์ caption model๊ณผ VQA model ๋ชจ๋์์ ์ผ๊ด์ ์ด์๋๋ฐ, ์ด๋ feature representation์ด ์ค์ ๋ก ์์ ๊ฐ์ ๊ณต์ ๋จ์ ์๋ฏธํ๋ค.
์ถ์ฒ
https://arxiv.org/abs/1909.11059