The overview of this paper
์ฌ๋ฌ vision-and-language task์์ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ VLP๋ region supervision(object detection)๊ณผ convolutional architecture(ResNet)์ ์๋นํ ์์กดํ์ฌ ์ด๋ฏธ์ง์์ feature๋ฅผ ์ถ์ถํ๋ค. ์ด๋ฌํ ์ ์ด ํจ์จ์ฑ/์๋์ ํํ๋ ฅ ์ธก๋ฉด์์ ๋ฌธ์ ๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
- ํจ์จ์ฑ/์๋: ์ ๋ ฅ feature ์ถ์ถ์ด multi-modal ์ํธ์์ฉ๋ณด๋ค ๋ ๋ง์ ๊ณ์ฐ๋์ ํ์๋ก ํจ.
- ํํ๋ ฅ: ์๊ฐ์ ์๋ฒ ๋์ ํํ๋ ฅ๊ณผ ๋ฏธ๋ฆฌ ์ ์๋ ์๊ฐ์ vocabulary์ ๋ํ ์ํ์ด ์๊ธฐ ๋๋ฌธ.
์ด ๋ ผ๋ฌธ์์๋ ์์ ๊ท๋ชจ์ VLP model์ธ Vision-and-Language Transformer(ViLT)๋ฅผ ์๊ฐํ์๋ค. ์ด ๋ชจ๋ธ์์ ์ ๋ ฅ์ ํ๋์ ๋ฉ์ด๋ฆฌ๋ก ๋ค์ด์ค๋๋ฐ ํ ์คํธ ์ ๋ ฅ์ ์ฒ๋ฆฌํ ๋ convolution์ ์ฌ์ฉํ์ง ์๋ ๊ฒ์ฒ๋ผ visual input์ ๊ฐ๋จํ๊ฒ ๋ง๋ค์ด์ก๋ค. ๊ทธ ๊ฒฐ๊ณผ ViLT๋ ๋ค๋ฅธ VLP model๋ค๋ณด๋ค 10๋ฐฐ ๋ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์ฃผ๊ณ downstream task์์ ๋ ๋ซ๊ณ ์ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Background
2-1. Taxonomy of Vision-and-Language Models
3. Vision-and-Language Transformer
3-1. Model Overview
3-2. Pre-training Objectives
3-3. Whole Word Masking
3-4. Image Augmentation
4. Experiments
4-1. Classification Tasks
4-2. Retrieval Tasks
4-3. Ablation Study
5. Conclusion
1. Introduction
์ง๊ธ๊น์ง VLP model๋ค์ vision-and-language task์์ ์ ๋งํ ๊ฒฐ๊ณผ๋ค์ ๋ณด์ฌ์ฃผ๊ณ ์์๋ค. VLP model์ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ์ํด์, ์ด๋ฏธ์ง ํฝ์ ์ language token๊ณผ ํจ๊ป embedding ๋์์ด์ผ ํ๋ค. ์ด๋ฌํ visual embedding ๋จ๊ณ๋ฅผ ์ํด์๋ CNN์ด ํ์์ ์ด์๋ค.
์ง๊ธ๊น์ง๋ ๋๋ถ๋ถ์ VLP ์ฐ๊ตฌ๋ค์ ์ฑ๋ฅ ํฅ์์ ์ํด visual embedder์ ํ์ ์ฆ๊ฐ์์ผฐ๋ค. ๋ฌด๊ฑฐ์ด visual embedder๋ฅผ ์ฌ์ฉํ์ ๋์ ๋จ์ ์ ํ์ ์คํ์์ ์ ์๊ฐ๋์ง ์์๋๋ฐ, ์๋ํ๋ฉด ํ์ต ์๊ฐ์ region feature๋ ์ ์ฅ๋์ feature ์ถ์ถ์ ๋ถ๋ด์ ์ค์ฌ์ค๋ค. ํ์ง๋ง, query๊ฐ wild ํ๊ฒฝ์์ ๋๋ฆฐ ์ถ์ถ ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ง๋ค๋ ๋ช ํํ real-world ์์ฉ์ ํ๊ณ๊ฐ ์๋ค.
์ด๋ฅผ ์ํ์ฌ, ๋ ผ๋ฌธ์์๋ attention์ visual input์ ๋น ๋ฅธ ์๋ฒ ๋ฉ๊ณผ ๊ฐ๋ฒผ์ด ๋ฌด๊ฒ๋ก ์ ํํ์๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ transformer์ ํฝ์ ์ด ๋ค์ด๊ฐ๊ธฐ ์ ์ patch์ ๊ฐ๋จํ linear projection์ ์ฌ์ฉํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ visual feature๋ฅผ ์ฒ๋ฆฌํ ๋ ์ฌ์ฉํ CNN ๋์ ์ text feature์ ์ฌ์ฉํ ๋์ฒ๋ผ ๊ฐ๋จํ linear projection์ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๊ณ ์๊ฐํ์ฌ ๋์ฒดํ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ ํ๋์ ํตํฉ๋ ๋ฐฉ์์์ ๋ ๊ฐ์ modality๋ฅผ ๋ค๋ฃจ๋ VIsion-and-Language Transformer(ViLT)๋ฅผ ์๊ฐํ์๋ค. ์ด ๋ชจ๋ธ์ด ๊ธฐ์กด์ VLP model๊ณผ ๋ค๋ฅธ ์ ์ pixel-level input์ embedding์ด CNN์ ์ฌ์ฉํ์ง ์์๋ค๋ ์ ์ด๋ค. ๋จ์ง visual input์ ๋ํ deep embedder๋ฅผ ์ ๊ฑฐํ์ ๋ฟ์ธ๋ฐ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฌ๋ ํ์์ด ์๋นํ ์ค์๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ ViLT์ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋ค.
๋ ผ๋ฌธ์ key contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ฐ๋จํ architecutre๋ฅผ ์ ์ํจ. ๋ณ๋์ deep embedder๋ฅผ ์ฌ์ฉํ๊ธฐ ๋ณด๋ค๋ Transformer์๊ฒ visual feature๋ฅผ ์ถ์ถ & ์ฒ๋ฆฌํ๊ฒ ํจ. ์ด๋ ํ์ ํ ์ ์ ๋ฐํ์๊ณผ ํจ์จ์ ์ธ ํ๋ผ๋ฏธํฐ๋ค์ ๋ณด์ฌ์คฌ์.
- region feature or deep conv visual ์๋ฒ ๋๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ์ ๋งํ vision-and-language task ๊ฒฐ๊ณผ๋ฅผ ์ป์.
- word masking & image augmentation์ downstream ์ฑ๋ฅ์ ํฅ์์ํด.
2. Background
2-1. Taxonomy of Vision-and-Language Models
๋ ผ๋ฌธ์์๋ vision-and-language model์ ๋ถ๋ฅ๋ฅผ ๋ค์์ ๋ ๊ด์ ์์ ๊ธฐ๋ฐํด์ ๋ถ๋ฅํ๋ค. ์ด๋ ๊ฒ ๋์จ 4๊ฐ์ ๋ถ๋ฅ๋ ๊ทธ๋ฆผ 2์ ๋ํ๋ ์๋ค.
- ๋ ๊ฐ์ modality๊ฐ ํ๋ผ๋ฏธํฐ์ ๊ณ์ฐ๋ ์ธก๋ฉด์์ ์ด๋ ์ ๋์ ํํ์ ๊ฐ์ง๋๊ฐ
- ๋ ๊ฐ์ modality๊ฐ deep network์์ ์ํธ์์ฉ์ ํ๋๊ฐ
์ด ๋ ผ๋ฌธ์์ ์ ์๋ ViLT๋ ์ ๊ทธ๋ฆผ 2์์ d ์ ํ์ ์ํ๋ ๋ชจ๋ธ์ด๋ค. ์ฌ๊ธฐ์ raw pixel์ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ ์๊ณ text token์ฒ๋ผ ๊ณ์ฐ์ ์ผ๋ก ๊ฐ๋ณ๋ค. ์ด architecture๋ modality ์ํธ์์ฉ์ ๋ชจ๋ธ๋งํ๋๋ฐ ๋๋ถ๋ถ์ ๊ณ์ฐ์ ์ง์คํ์๋ค.
3. Vision-and-Language Transformer
3-1. Model Overview
ViLT๋ VLP ๋ชจ๋ธ์ ๋นํด ๊ฐ๊ฒฐํ architecture์ด๋ค. ์ต์์ visual embedding ํ์ดํ๋ผ์ธ๊ณผ single-stream ๋ฐฉ์์ ์ฌ์ฉํ์๋ค.
๋ ผ๋ฌธ์์๋ BERT ๋์ ์ pre-trained ViT๋ก๋ถํฐ ์ํธ์์ฉ transformer ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํํ๋ค๋ ํ๊ฒฝ์์ ๋ฒ์ด๋ฌ๋ค. ์ด๋ฌํ ์ด๊ธฐํ๋ ์ํธ ์์ฉ ๋ ์ด์ด์ ๊ธฐ๋ฅ์ ํ์ฉํ์ฌ visual feature์ ์ฒ๋ฆฌํ๋ ๋์์ ๋ณ๋์ ์ฌ์ธต visual embedder๊ฐ ๋ถ์กฑํ๋ค.
ViT๋ multiheaded self-attention(MSA)์ MLP layer๋ฅผ ํฌํจํ๋ ์ ์ฌ๋ ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ViT์์ layer normalization(LN)์ ์์น๋ BERT์ ๋ค๋ฅธ ์ ์ผํ ์ ์ด๋ค: BERT(post-norm, MSA์ MLP ํ์ ์ด), ViT(pre-norm, MSA์ MLP ์ ์ ์ด). ์ ๋ ฅ ํ ์คํธ $t \in \mathbb{R}^{L \times |V|}$์ word embedding ํ๋ ฌ $T \in \mathbb{R}^{|V| \times H}$์ position embedding $T^{pos} \in \mathbb{R}^{(L+1) \times H}$์ ํจ๊ป $\bar{t} \in \mathbb{R}^{L \times H}$์ผ๋ก ์๋ฒ ๋ฉ๋๋ค.
์ ๋ ฅ ์ด๋ฏธ์ง $I \in \mathbb{R}^{C \times H \times W}$๋ ํจ์น๋ก ์๋ผ์ง๊ณ $v \in \mathbb{R}^{N \times (P^{2} \cdot C)}$๋ก ๋ฉ์ํด์ง๊ณ , ์ฌ๊ธฐ์ $(P, P)$๋ ํจ์น์ ํด์๋์ด๊ณ $N = HW \setminus P^{2}$. linear projection $V \in \mathbb{R}^{(P^{2} \cdot C) \times H}$์ position embedding $V^{pos} \in \mathbb{R}^{(N+1) \times H}$์ด๊ณ , $v$๋ $\bar{v} \in \mathbb{R}^{N \times H}$์ผ๋ก ์๋ฒ ๋ฉ๋๋ค.
ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ํด๋นํ๋ modal-type ์๋ฒ ๋ฉ ๋ฒกํฐ $t^{type}, v^{type} \in \mathbb{R}^{H}$๊ณผ ํฉํด์ง ๋ค์์, ๊ฒฐํฉ๋ ์ํ์ค $z^{0}$์ผ๋ก ์ฐ๊ฒฐ๋๋ค. contextualized vector $z$๋ ์ต์ข contextualized ์ํ์ค $z^{D}$ ์ง์ ๊น์ง ๊น์ด $D$์ transformer layer์ ํตํด ๋ฐ๋ณต์ ์ผ๋ก ์ ๋ฐ์ดํธ ๋๋ค. $p$๋ ์ ์ฒด multi-modal ์ ๋ ฅ์ pooled representation์ด๊ณ , linear projection $W_{poop} \in \mathbb{R}^{H \times H}$์ ํ์ดํผ๋ณผ๋ฆญ ํ์ ํธ๋ฅผ ์ํ์ค $z^{D}$์ ์ฒซ ๋ฒ์งธ ์ธ๋ฑ์ค์ ์ ์ฉํจ์ผ๋ก์จ ์ป์ด์ง๊ฒ ๋๋ค.
๋ชจ๋ ์คํ์์, ImageNet์์ pre-train ๋ ViT-B/32๋ก๋ถํฐ ๊ฐ์ค์น๊ฐ ์ฌ์ฉ๋๊ณ , ๋ฐ๋ผ์ ์ด๋ฆ์ ViLT-B/32๋ผ๊ณ ์ง์๋ค. hidden size $H$๋ 768์ด๊ณ , layer ๊น์ด $D$๋ 12, ํจ์น ์ฌ์ด์ฆ $P$๋ 32, MLP ์ฌ์ด์ฆ๋ 3,072, attention head์ ์์ 12์ด๋ค.
3-2. Pre-training Objectives
๋ ผ๋ฌธ์์๋ ViLT๋ฅผ ๋ณดํต VLP model์ ํ์ต์ํฌ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ๋ ๋ ๊ฐ์ objective๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต์์ผฐ๋ค: image text matching(ITM) & masked language modeling(MLM).
Image Text Matching. 0.5์ ํ๋ฅ ๋ก ์ ๋ ฌ๋ ์ด๋ฏธ์ง๋ฅผ ๋ค๋ฅธ ์ด๋ฏธ์ง๋ก ๋์ฒดํ๋ค. single layer ITM head๋ ํ๋ง๋ ์ถ๋ ฅ feature $p$๋ฅผ ์ด์ง ํด๋์ค์ ๋ํ logit์ผ๋ก ํฌ์ํ๊ณ negative log-liklihood๋ฅผ ITM loss๋ก ๊ณ์ฐํ๋ค.
์ถ๊ฐ์ ์ผ๋ก ๋ ผ๋ฌธ์์ word region alignment ๋ชฉํ์ ์๊ฐ์ ๋ฐ์์, ๋ ๊ฐ์ ์๋ธ์ : $z^{D}|_{t}$(textual subset) & $z^{D}|_{v}$(visual subset) ๊ฐ์ ์ ๋ ฌ ์ ์๋ฅผ ์ต์ ์ ์ ์ก์ ์ํ IPOT๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ฐํ๋ word patch alignment(WPA)๋ฅผ ์ ์ํ์๋ค.
Masked Language Modeling. ์ด ๋ชฉํ๋ contextualized vector $z_{masked}^{D}|_{t}$๋ก๋ถํฐ masked text token $t_{masked}$์ ์ค์ ๋ผ๋ฒจ์ ์์ธกํ๋ ๋ชฉํ์ด๋ค. BERT์ ๋ง์คํน ์ ๋ต์ ์ฌ์ฉํด์ ํ๋ฅ 0.15๋ก $t$๋ฅผ ๋๋คํ๊ฒ ๋ง์คํนํ์๋ค.
๋ ผ๋ฌธ์์๋ BERT์ MLM ๋ชฉํ์ฒ๋ผ ์ ๋ ฅ์ผ๋ก $z_{masked}^{D}|_{t}$๊ฐ ๋ค์ด์ค๊ณ vocabulary์ ๋ํ logit์ ์ถ๋ ฅํ๋ two-layer MLP MLM head๋ฅผ ์ฌ์ฉํ์๋ค. MLM loss๋ masked token์ ์ํ negative log-liklihood loss์ฒ๋ผ ๊ณ์ฐ๋์๋ค.
3-3. Whole Word Masking
whole word masking์ ์ ์ฒด ๋จ์ด๋ฅผ ๊ตฌ์ฑํ๋ ์ฐ์๋๋ subword๋ค์ ๋ชจ๋ maskํ๋ masking technique์ด๋ค. ์ด technique์ ๊ธฐ์กด & Chinese BERT์ ์ ์ฉํ ๋ downstream task์์ ํจ๊ณผ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ๋ค๋ฅธ modality๋ก๋ถํฐ ์ ๋ณด์ ์ฌ์ฉ์ full๋ก ํ๊ธฐ ์ํด์๋ VLP๋ฅผ ์ํ whole word masking์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ค์ํ๋ค๊ณ ๊ฐ์ ํ์๋ค. ๊ทธ๋์ ์ค์ ๋ก WordPiece๋ก ๋๋ ์ง ๋ชจ๋ ํ ํฐ์ masking ํ์๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด ์ด๋ฏธ์ง๋ก๋ถํฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ์ธ์ ๋จ์ด๋ก๋ง ์์ธก์ ์งํํ๊ธฐ ๋๋ฌธ์ด๋ค.
3-4. Image Augmentation
image augmentation์ vision model์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค. ํ์ง๋ง, image augmentation์ ๋ฅ๋ ฅ์ VLP model์์ ์์ง ํ๊ตฌ๋์ง ์์๋ค. visual feature ์ ์ฅ์ region feature ๊ธฐ๋ฐ VLP ๋ชจ๋ธ์ด image augmentation์ ์ฌ์ฉํ์ง ๋ชปํ๋๋ก ์ ํํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ fine-tuning ์ค์ RandAugment๋ฅผ ์ ์ฉํ์๋ค. ์ ๋งํ policy๋ฅผ ๋ชจ๋ ์ฌ์ฉํ์์ง๋ง, ๋ ๊ฐ์ง๋ง์ ์ ์ธํ์๋ค: color inversion → ํ ์คํธ๋ ์๊น ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ๋ ํ๊ธฐ ๋๋ฌธ, cutout → ์ด๋ฏธ์ง์ ์กฐ๊ทธ๋งํ ๋ถ๋ถ์ ์ ๊ฑฐํ์ง๋ง, ์ด ๋ถ๋ถ์ด ์ค์ํ object์ผ ์๋ ์๊ธฐ ๋๋ฌธ.
4. Experiments
4-1. Classification Tasks
๋ ผ๋ฌธ์์๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ ๊ฐ์ ๋ฐ์ดํฐ์ ์์ ViLT-B/32๋ฅผ ํ๊ฐํ์๋ค: VQAv2 & NLVR2. ๋ ผ๋ฌธ์์๋ fine-tuned downstream head ์ฒ๋ผ ํ๋ ์ฌ์ด์ฆ 1,536์ two-layer MLP๋ฅผ ์ฌ์ฉํ์๋ค.
Visual Question Answering. ViLT-B/32๋ฅผ VQAv2 ๋ฐ์ดํฐ์ ์์ ํ๊ฐํ์๋ค. ํ 1์์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋๋ฐ, ViLT๋ visual embedder๊ฐ ๋ง์ ๋ค๋ฅธ VLP ๋ชจ๋ธ์ ๋นํด VQA ์ ์์ ๋ฏธ์น์ง๋ ๋ชปํ์๋ค.
Natural Language for Visual Reasoning. ViLT-B/32๋ฅผ NLVR2 ๋ฐ์ดํฐ์ ์์ ํ๊ฐํ์๋ค.
๋ค์์ ํ 2๋ ์ด ๋ task์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ViLT-B/32๋ ๋ ๋ฐ์ดํฐ์ ์์ ์ ๋งํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๊ณ , ์ข์ ์ถ๋ก ์๋๋ฅผ ์ป์๋ค.
4-2. Retrieval Tasks
๋ ผ๋ฌธ์์๋ ViLT-B/32๋ฅผ MSCOCO & F30k์ ๋ถํ ์์ fine-tune ํ์๋ค. image-to-text & text-to-image ๊ฒ์์ ์ํด, ๋ ผ๋ฌธ์์๋ zero-shot๊ณผ fine-tuned ์ฑ๋ฅ์ ๋ชจ๋ ๋น๊ตํ์๋ค. ๋ ผ๋ฌธ์์๋ 15๊ฐ์ ํ ์คํธ๋ฅผ negative sample๋ก ์ํ๋งํ๊ณ model์ positive ์์ score๋ฅผ ๊ทน๋ํํ๋ cross-entropy loss๋ฅผ ์ฌ์ฉํด์ tuning ํ์๋ค.
๋ค์์ ํ 2๋ zero-shot ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๊ณ , ํ 3์ fine-tuned ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. zero-shot ๊ฒ์์์ ViLT-B/32๋ ๋์ฑ ํฐ ๋ฐ์ดํฐ์ ์์ pre-train ๋ ImageBERT ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. fine-tuned ๊ฒ์์์ 2 ๋ฒ์งธ๋ก ๋น ๋ฅธ ๋ชจ๋ธ๋ณด๋ค ๋์ ๋ง์ง์ผ๋ก ํฐ recall์ ๋ณด์ฌ์คฌ๋ค.
4-3. Ablation Study
ํ 4์์ ์ฌ๋ฌ ablation์ ๋ํด์ ์ํํ์๋ค: ↑ training steps & whole word masking & image augmentation. ์ด ablation์ ์ด์ ์ ํ์ ํ์๋ค. ๋์ฑ ๊ธด training step์์ ๋ชจ๋ธ์ ํ์ต์์ผฐ์ ๋, ์ฑ๋ฅ์ ์์น๋์๋ค(1์ด~3์ด). MLM ๋ชฉํ๋ฅผ ์ํ ์ ์ฒด ๋จ์ด ๋ง์คํน(3์ด~4์ด)๊ณผ augmentation์ ์ฌ์ฉํ fine-tuning(6์ด)์ ํ ๊ฒฐ๊ณผ ์ฑ๋ฅ์ด ํฅ์๋์๋ค.
5. Conclusion
๋ ผ๋ฌธ์์๋ ์ต์ํ๋ VLP architecture์ธ Vision-and-Language Transformer(ViLT)๋ฅผ ์๊ฐํ์๋ค. ViLT๋ visual embedding์ ์ํ CNN์ ์ฌ์ฉํ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ์ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ViLT์ ์์๋ค์ ์ค์์ฑ์ ๋ํด ์์๋ณด์๋ค.
Scalability. ์ ๋น์์ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด pre-trained transformer์ ์ฑ๋ฅ์ ์ scale ๋๋ค.
Masked Modeling for Visual Inputs. MRM์ ์ฑ๊ณต์ visual modality๋ฅผ ์ํ masked modeling objective๊ฐ transformer์ ๋ง์ง๋ง ๋ ์ด์ด๊น์ง ์ ๋ณด๋ฅผ ๋ณด์กดํจ์ผ๋ก์จ ๋์์ฃผ์๋ค.
Augmentation Strategies. RandAugment๋ฅผ ์ฌ์ฉํ ๊ฒฐ๊ณผ, ๋ค๋ฅธ ๊ฐ๋จํ augmentation ์ ๋ต์ ์ฌ์ฉํ ๊ฒ๊ณผ ๋น๊ตํด์ downstream ์ฑ๋ฅ์ gainํ ์ ์์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2102.03334