The overview of this paper
๊ธฐ์กด์ Vision-Language Pre-training(VLP)๋ ๋ง์ multi-modal downstream task์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ๊ฐ๋น์ผ annotation์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ scalability๋ฅผ ์ ํํ๊ณ , ๋ค์ํ dataset-specific objective์ ์๊ฐ๋ก pre-training ํ๋ก์์ ๋ฅผ ๋ณต์กํ๊ฒ ๋ง๋ ๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ์ฝ์ ์ํํ๊ณ ์ต์ํ์ pre-training ํ๋ ์์ํฌSimple Visual Language Model(SimVLM)๋ฅผ ์๊ฐํ์๋ค. SimVLM์ ๋ค์๊ณผ ๊ฐ์ ์ด์ ์ ๊ฐ์ง๋ค.
- ๋๊ท๋ชจ์ weak supervision์ ์ฌ์ฉํจ์ผ๋ก์จ ํ์ต ๋ณต์ก๋๋ฅผ ๋ฎ์ถค
- ํ๋์ prefic language modeling objective๋ฅผ ์ฌ์ฉํด์ ํ์ต
๊ทธ ๊ฒฐ๊ณผ SimVLM์ open-ended VQA์ cross-modality transfer๋ฅผ ํฌํจํ๋ zero-shot ํน์ฑ์ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ ๊ฐ๋ ฅํ ์ผ๋ฐํ์ ์ ์ด ๋ฅ๋ ฅ์ ์ป์ ์ ์์๋ค.
Table of Contents
1. Introduction
2. SimVLM
2-1. Background
2-2. PrefixLM
2-3. Architecture
2-4. Datasets
3. Experiments
4. Ablation Study
1. Introduction
textual representation pre-training์ ์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์, multi-modal(visual & textual) model์ ๋ง๋ค๋ ค๊ณ ํ๋ ๋ง์ ๋ ธ๋ ฅ๋ค์ด ์์๋ค. ์์ฆ์ ์ฐ๊ตฌ๋ค์์๋ vision-language(VL) ๋ฒค์น๋งํฌ์์ fine-tune ๋์ด์ผ ํ๋ ๋ modality ๊ฐ์ ๊ณต๋ representation์ ํ์ตํ๋ vision-language pre-training(VLP)๋ฅผ ํ์ฉํ๋ค. ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ ๋ ฌ์ ์บก์ฒํ๊ธฐ ์ํด์ ์ด์ ์ method๋ค์ ๋ค์์ 2 ๊ฐ์ง์ human-labeled ๋ฐ์ดํฐ์ ์ ๊ด๋ฒ์ํ๊ฒ ์ฌ์ฉํ์๋ค.
- object detection ๋ฐ์ดํฐ์ : supervised object detector์ ํ์ต์ ์ํด ์ฌ์ฉ๋จ. ์ด๋ฏธ์ง๋ก๋ถํฐ RoI ์ถ์ถ์ ๊ฐ๋ฅํ๊ฒ ํด ์ค.
- ์ ๋ ฌ๋ image-text ์ ๋ฐ์ดํฐ์ : ์ถ์ถ๋ RoI feature์ paired ํ ์คํธ์ ์กฐํฉ์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋ fusion model์ MLM pre-training์ ์ํด ์ฌ์ฉ๋จ.
ํ์ ๋ ๊ท๋ชจ์ human-annotated ๋ฐ์ดํฐ ๋๋ฌธ์ ์ฑ๋ฅ ํฅ์์ ์ํด ๋ค์ํ task-specific auxiliary loss๋ฅผ ์ฌ์ฉํ๊ฒ ๋๋ค. ํ์ง๋ง, ์ด๋ฌํ auxiliary loss๋ VLP์ pre-training ํ๋กํ ์ฝ์ ๋ณต์กํ๊ฒ ๋ง๋ ๋ค. ์ด๋ฌํ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ pre-training์ ์ํํ๊ธฐ ์ํด ์น์์ ์์ง๋ weakly labeled ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋๋ฐ, ์ข์ ์ฑ๋ฅ์ ์ป์์ ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง ๋ถ๋ฅ์ image-text retrieval์์ ํ์คํ zero-shot ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ฃผ๋ก ํน์ ์์ ์ ์ค์ ์ ๋๋ฏ๋ก VL ๋ฒค์น๋งํฌ์ ๋ํ ์ผ๋ฐ์ ์ธ pretraining-finetuning representation์ผ๋ก ์ฌ์ฉ๋์ง ์์ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ด๋ฌํ ๋จ์ ์์ ๋ค์๊ณผ ๊ฐ์ ํน์ฑ์ ๊ฐ์ง๋ SimVLM์ ๋ง๋๋๋ฐ ๊ด์ฌ์ ๊ฐ์ก๋ค. ์ด SimVLM์ ๋จ์ง language modeling objective๋ฅผ weakly aligned image-text ์์ ์ฌ์ฉํจ์ผ๋ก์จ VLP๋ฅผ ์๋นํ ๊ฐ๋จํ๊ฒ ๋ง๋๋ ๋ชจ๋ธ์ด๋ค.
- pre-training & fine-tuning ํจ๋ฌ๋ค์์ด๊ณ , ๊ธฐ์กด VL ๋ฒค์น๋งํฌ์์ ์ ๋งํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ชจ๋ธ ๐ฅ
- ๋ณต์กํ pre-training ํ๋กํ ์ฝ ํ์ โ
- cross-modal ์ธํ ์์ ์ ์ฌ์ text guided zero-shot ์ ๊ทํ ๋ฅ๋ ฅ์ ๊ฐ์ง๋ ๋ชจ๋ธ ๐
๊ทธ๋ฆฌ๊ณ ๋ค์์ SimVLM์ ๊ตฌ์ฑํ๋ ์์๋ค์ด๋ค.
- Objective: PrefixLM์ ์ฌ์ฉํ์์ โก๏ธ ํ ์คํธ ์์ฑ(GPT-3) ๋ฟ๋ง ์๋๋ผ ์๋ฐฉํฅ ๋ฌธ๋งฅ ์ ๋ณด ์ฒ๋ฆฌ(BERT)๊ฐ ๊ฐ๋ฅํจ. ๐ฎ
- Arhitecture: ViT/CoAtNet ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํด์ raw image๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์. ์ด ๋ชจ๋ธ์ ๋๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ ์ฉ ๊ฐ๋ฅํ๊ณ PrefixLM์๋ ์์ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅํจ. ๐
- Data: ์์ ์ ์ ์ object detection์ ํ์๋ฅผ ์ํํ๊ณ ๋๊ท๋ชจ weakly labeled ๋ฐ์ดํฐ์ ํ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํด ์ค. ์ด๊ฒ์ zero-shot ์ผ๋ฐํ์ ์ ์ฌ์ ์ธ ํ์ ๊ฐ์ง๊ฒ ํด์ค. โจ
๋ค์์ SimVLM์ด ๊ฐ์ง๋ ์ฅ์ ๋ค์ด๋ค.
- ๋งค์ฐ ๊ฐ๋จํจ! ๐
- object detection pre-training & auxiliary loss ๋ ๋ค ํ์ โ
- ์ด์ ์ method๋ค๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ ๐บ
2. SimVLM
2-1. Background
๋ ผ๋ฌธ์์๋ ์ด ๋ ๊ฐ์ง์ training objective๋ฅผ ์ดํด๋ดค๋๋ฐ, ์ด ๋์ ๋ํด์ ๊ฐ๋จํ๊ฒ๋ง ์ดํด๋ณด๊ณ ์์ธํ ๋ด์ฉ์ ๋๊ธฐ๋๋ก ํ๊ฒ ๋ค.
- bi-directional Masked Language Modeling(MLM): ๋ฌธ๋งฅ์ ์ดํด๋ฅผ ๋์์ฃผ๋ training objective๋ก, BERT์์ ์ฒ์ ์๊ฐ๋์๋ค. ํน์ง์ ๋ฌธ๋งฅ์ ์๋ฐฉํฅ์ผ๋ก ์ฒ๋ฆฌํ๋ค๋ ๊ฒ์ด๋ค. masked token์ ์์ธกํ ๋, ๊ทธ ํ ํฐ์ ์๋ค๋ฅผ ๋ชจ๋ ์ฐธ๊ณ ํด์ ์์ธกํ ์ ์๋ค. ๋ฐ๋ผ์ ๋ฌธ๋งฅ์ ์ดํด์ ํนํ๋์ด ์๋ค.
- uni-directional Language Modeling(LM): ๋ฌธ์ฅ ์์ฑ์ ๋์์ฃผ๋ training objective๋ก, GPT์ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉ๋๋ค. ํน์ง์ ๋ฌธ๋งฅ์ ๋จ๋ฐฉํฅ์ผ๋ก ์ฒ๋ฆฌํด์ ์์ฑํ๋ ค๋ ํ ํฐ์ ์ด์ ๋จ์ด๋ค๋ง ์ฐธ๊ณ ํ ์ ์๋ค. ๋ฐ๋ผ์ ๋ฌธ์ฅ์ ์์ฑ์ ํนํ๋์ด ์๋ค.
2-2. PrefixLM
LM loss๊ฐ ์๋ pre-training์ ํตํด ๋์ ๋ zero-shot ๋ฅ๋ ฅ์์ ๋๊ธฐ๋ฅผ ์ป์ด, ๋ ผ๋ฌธ์์๋ Prefix Language Modeling(PrefixLM)์ ์ฌ์ฉํด์ vision-language representation์ pre-train ํ๊ธฐ๋ก ์ ์ํ์๋ค. PrefixLM์ prefix ์ํ์ค(๋ค์์ ์์์์ $\textbf{x}_{<T_{p}}$)์์ bi-directional attention์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ ๋๋จธ์ง ํ ํฐ(๋ค์์ ์์์์ $\textbf{x}_{\geq T_{p}}$)์ ๋ํด์๋ง autoregressive factorization์ ์ํํ๋ค๋ ์ ์์ ํ์ค LM๊ณผ ๋ค๋ฅด๋ค. pre-training ์ค์ ๊ธธ์ด $T_{p}$์ธ ํ ํฐ์ prefix ์ํ์ค๋ ์ ๋ ฅ ๋ฌธ์ฅ์ผ๋ก๋ถํฐ ์ค์ด๋ค๊ฒ ๋๊ณ training objective๋ ๋ค์๊ณผ ๊ฐ์์ง๋ค:
์ง๊ด์ ์ผ๋ก ์น ๋ฌธ์์์ ์ด๋ฏธ์ง๋ ํ ์คํธ ์ด์ ์ ๋ํ๋๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง๋ textual description์ ์ํ prefix๋ผ๊ณ ์๊ฐํ ์ ์๋ค. ๋ฐ๋ผ์ ์ฃผ์ด์ง image-text ์์ ๋ํด ๋ ผ๋ฌธ์์๋ ๊ธธ์ด $T_{i}$์ ์ด๋ฏธ์ง feature ์ํ์ค๋ฅผ ํ ์คํธ ์ํ์ค ์์ ๋ถ์ธ๋ค. ๊ทธ๋ฆฌ๊ณ text data only์์ LM loss๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ๊ธธ์ด $T_{p} \geq T_{i}$์ prefix๋ฅผ ์ํ๋งํ๊ธฐ ์ํด์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. (๊ทธ๋ฆผ 1 ์ฐธ๊ณ ) ์ด์ MLM ์คํ์ผ VLP method๋ค๊ณผ ๋น๊ตํด์, ๋ ผ๋ฌธ์ seq2seq ํ๋ ์์ํฌ์ PrefixLM ๋ชจ๋ธ์ MLM์ ์๋ฐฉํฅ ๋ฌธ๋งฅ rerpesentation๋ ๊ฐ๋ฅํ ๋ฟ๋ง ์๋๋ผ LM๊ณผ ์ ์ฌํ ํ ์คํธ ์์ฑ๋ ์ํ์ด ๊ฐ๋ฅํ๋ค.
2-3. Architecture
๋ ผ๋ฌธ์์๋ vision๊ณผ language task์์ ๋ชจ๋ ์ฑ๊ณต์ ์ธ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ ์๋ Transfomer๋ฅผ backbone์ผ๋ก ์ฌ์ฉํ์๋ค. ๊ธฐ์กด์ LM๊ณผ ๋ฌ๋ฆฌ PrefixLM์ prefix ์ํ์ค์์ ์๋ฐฉํฅ attention์ ๊ฐ๋ฅํ๊ฒ ํด ์ฃผ๊ณ , ๋ฐ๋ผ์ decoder-only & encoder-decoder seq2seq LM์ ์ ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํด ์ค๋ค.
SimVLM ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ๊ทธ๋ฆผ 1์ ๋ฌ์ฌ๋์ด ์๋ค. visual modlaity์ textual modality ๊ด์ ์์ ์ค๋ช ํ๋๋ก ํ๊ฒ ๋ค.
- visual modality: ViT & CoAtNet์ ํ์ฉํ์๋ค. raw image $\textbf{x} \in \mathbb{R}^{H \times W \times C}$๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ํจ์น์ flattened 1D sequence $\textbf{x}){p} \in \mathbb{R}^{T_{i} \times D}$๋ก ๋งคํ์ ํด์ Transformer์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ์ $D$๋ transformer layer์ ๊ณ ์ ๋ hidden size์ด๊ณ $T_{i} = \frac {HW}{P^{2}}$๋ ์ฃผ์ด์ง ํจ์น ์ฌ์ด์ฆ $P$์ ๋ํ ์ด๋ฏธ์ง ํ ํฐ์ ๊ธธ์ด์ด๋ค. ์ด์ ์ ๋ฐฉ๋ฒ๋ค์ ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ResNet์ ์ฒซ 3๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ Conv stage๋ฅผ ์ฌ์ฉํด์ contextualized ํจ์น๋ฅผ ์ถ์ถํ์๋ค. ์ด๊ฒ์ ViT์์ ์ฌ์ฉ๋๋ naive linear projection(1×1 Conv ๋ ์ด์ด์ ๋์ผ) ๋ณด๋ค ์ ๋ฆฌํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
- textual modality: ์ ๋ ฅ ๋ฌธ์ฅ์ sub-word ํ ํฐ์ผ๋ก ํ ํฐํํ๋ ๊ธฐ์กด์ ๋ฐฉ๋ฒ์ ๋ฐ๋๊ณ , ์๋ฒ ๋ฉ์ ๊ณ ์ ๋ voacbulary๋ฅผ ์ํด ํ์ต๋๋ค.
position ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง์ ํ ์คํธ์ ๊ฐ๋ณ์ ์ผ๋ก 2๊ฐ์ ํ์ต ๊ฐ๋ฅํ 1D positional embedding์ ์ถ๊ฐํ์๊ณ , ์ด๋ฏธ์ง ํจ์น์ transformer layer ๊ฐ์ ์ถ๊ฐ์ ์ผ๋ก 2D relative attention์ ์ถ๊ฐํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ถ๊ฐ์ ์ธ modality type embedding์ ์ถ๊ฐํ์ง ์์๋ค.
2-4. Datasets
๋ ผ๋ฌธ์ ๋ฐฉ์์ object detection ๋ชจ๋์ ์์กดํ์ง ์๊ณ , ์ค์ง raw image patch ์ ๋ ฅ์ ์ฌ์ฉํ์ฌ ์๋ํ๊ธฐ ๋๋ฌธ์, ๋๊ท๋ชจ noisy image-text ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ ์ฒ์๋ถํฐ ๋ชจ๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ pre-train ํ์๋ค. ํนํ, ๋ ผ๋ฌธ์์๋ ALIGN์์ ์๊ฐ๋ ์น์์ ์์ง๋ ๋ฐ์ดํฐ์ ์ต์ํ์ ํ์ฒ๋ฆฌ๋ฅผ ๊ฑฐ์น image & alt-text ์์ ์ฌ์ฉํ์๋ค. ์ด์๋ ๋ฐ๋๋ก, ๋ ผ๋ฌธ์ PrefixLM์ ๊ณต์์ modality-agnostic ํ๊ณ ๋ฐ๋ผ์ alt-text ๋ฐ์ดํฐ์์ noisy text supervision์ ๋ณด์ํ๊ธฐ ์ํ text-only corpora๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ํฌํจํ ์ ์๋ค. ์ด๋ฌํ ํตํฉ๋ PrefixLM์ modality ๋ถ์ผ์น๋ฅผ ๊ฐ์์ํค๊ณ ๋ชจ๋ธ์ ํ๋ฆฌํฐ๋ฅผ ํฅ์์ํจ๋ค.
2๊ฐ์ pre-training ์คํ ์ด์ง์ ๋ค์ํ auxiliary objectives๋ก ๊ตฌ์ฑ๋์ด ์๋ ์ด์ ์ VLP method์ ๋น๊ตํ์ฌ SimVLM์ ํ๋์ language modeling loss๋ฅผ ์ฌ์ฉํ๋ one-pass pre-training๋ง์ ํ์๋ก ํด์ Simple Visual Language Model์ด๋ผ๊ณ ๋ถ๋ฆฌ๊ฒ ๋ ๊ฒ์ด๋ค.
3. Experiments
๋ ผ๋ฌธ์์๋ ๋ค์ํ visual-linguistic ๋ฒค์น๋งํฌ ์ธํธ์์ ์คํ์ ์งํํ์๋ค: visual question answering(VQA), image cpationing, visual reasoning, visual entailment, multimodal translation. ๊ทธ๋ฆฌ๊ณ SimVLM์ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ open-ended VL understanding์์ ์ฐ๊ตฌํ์๋ค.
3-1. Comparison with Existing Approaches
vision-language pre-training์ ํ๋ฆฌํฐ๋ฅผ ๊ฒ์ฌํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ SimVLM์ ์ ๋ช ํ multi-modal task์ SoTA VLP method(LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNMO, VinVL)๋ค๊ณผ ๋น๊ตํ์๋ค.
๋ค์์ ํ 1์์ ๋ณด์ด๋ฏ์ด SimVLM์ ๋ชจ๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ์๋นํ ๋ง์ง์ ๊ฐ์ง๊ณ ์๋ก์ด SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. ์ด๊ฒ์ ๋ ผ๋ฌธ์ generative pre-training ๋ฐฉ์์ด MLM ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ weak supervision์ ์ฌ์ฉํ๋ ๊ฐ๋จํ ํ๋ ์์ํฌ๋ high-quality multi-modal representation์ ํ์ตํ๋๋ฐ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๊ตฌ๋ณ task์ ๋ํด์, $SimVLM_{base}$๋ ๋ ์ ์ ๋ฅ๋ ฅ์ ์ฌ์ฉํ๊ณ ๋ ์ด๋ฏธ ์ด์ ์ ๋ชจ๋ method๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ $SimVLM_{huge}$๋ ์ด์ ์ SoTA์ ๋นํด 4 ํฌ์ธํธ ๋ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ SimVLM์ NLVR2์ SNLI-VE์์ ์ด์ ์ method๋ค์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ์ด ๋ชจ๋ธ์ ๋์ฑ ๋ณต์กํ visual-linguistic reasoning์ ๋ํ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ์ค๋ช ํ๋ค. image captioning๊ณผ image translation์ ํฌํจํ๋ ์์ฑ task์ ๋ํด์ SimVLM์ naive fine-tuning ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ CoCo captioning๊ณผ Multi30k ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด ์คํ์ ํตํด SimVLM์ด ์ต์ํ์ pre-training & fine-tuning ํ๋ก์์ ๋ฅผ ์ฌ์ฉํด์ ๋ ๋์ ์ฑ๋ฅ์ pretraining-finetuning ํจ๋ฌ๋ค์์ด ๋์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
3-2. Zero-shot Generalization
generative modeling๊ณผ weak supervision์ ์ฌ์ฉํ scaling์ ๊ฐ์ฅ ์ค์ํ ์ด์ ์ zero-shot ์ผ๋ฐํ์ ๋ํ ์ ์ฌ๋ ฅ์ด๋ค. ์ด ์น์ ์์๋ ์ด์ ์ ํด๋ณธ ์ ์ด ๊ฑฐ์ ์๋ 3๊ฐ์ ์๋ก ๋ค๋ฅธ zero-shot ์์ฉ VLP ์์ ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค: ๋ณธ ์ ์๋ task, modality, test instances๋ก ์ ๋ฌ.
Zero-shot/Few-shot Image Captioning
SimVLM์ pre-training ํ๋ก์์ ๋ real-word web corpus์์ noisy image captioning objective๋ก ํด์๋ ์ ์๋ค. ์ด๋ฅผ ์ํด pre-trained SimVLM ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ zero-shot ์ธํ ์์๋ image captioning ๋ฒค์น๋งํฌ์์ ๋ฐ๋ก ๋์ฝ๋ฉ์ ํ๊ณ , few-shot ์ธํ ์์๋ 5๊ฐ์ epoch์ ๋ํด 1%์ ํ์ต ๋ฐ์ดํฐ๋ฅผ fine-tune ํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ํ "A picture of"๋ผ๋ prompt๋ฅผ ์ฌ์ฉํ๋ decoded caption์ ํ๋ฆฌํฐ๋ฅผ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
ํ 2์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ SimVLM์ zero-shot & few-shot ์ฑ๋ฅ์ fully supervised baseline๊ณผ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , pre-trained model ๋ณด๋ค ๋ ๋์ ์ค์ฝ์ด๋ฅผ ์ป์์ผ๋ก์จ concept-rich NoCaps ๋ฒค์น๋งํฌ์์ ๊ฐ๋ ฅํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆผ 2์ (a)๋ฅผ ๋ณด๋ฉด SimVLM์ ๋ค์๊ณผ ๊ฐ์ ํน์ฑ๋ค์ ์ ์ ์๋ค.
- ๊ทธ๋ฆผ 2 (a): real-world concept๋ฅผ ์บก์ฒํ ๋ฟ๋ง ์๋๋ผ visual input์ ์ธ๋ฐํ ๋ฌ์ฌ๋ ์ ๊ณต. decoding ๋ ์ํ์ ์ฌ๋ฌ object๋ฅผ ์ฌ์ฉํ์ฌ ๋ณต์กํ ์ฅ๋ฉด ์ค๋ช ์ด ๊ฐ๋ฅํ๋ค. ์๋์ฐจ ๋ธ๋๋๋ ๋ชจ๋ธ ๊ฐ์ fine-grained abstraction์ ์ดํด๋ ๋ณด์ฌ์ค๋ค. ์ด๋ ค์ด ์ด๋ฏธ์ง์ ๋ํด์๋ robustness๋ฅผ ๋ณด์ฌ์ค๋ค.
Zero-shot Cross-modality Transfer
๊ธฐ์กด์ pre-training method๋ค์ ๋์ข ์ ๋ฐ์ดํฐ ๊ณต๊ฐ ๊ฐ์ ์ฑ๊ณต์ ์ธ ์ง์ ์ ๋ฌ์ ๋ณด์ฌ์คฌ๋ค. ์ด ์ ์ ์ ์๊ฐ์ ๋ฐ์์ ๋ ผ๋ฌธ์์๋ VLP model์ ํ์ฉํ๋ ์๋ก์ด zero-shot cross-modality transfer ํจ๋ฌ๋ค์์ ์คํํด ๋ณด์๊ณ , ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ด modality ๊ฐ์ ์ผ๋ง๋ ์ ์ผ๋ฐํํ๋์ง๋ฅผ ํ๊ฐํ์๋ค. ํ ์คํธ ํ์ต ๋ฐ์ดํฐ๋ visual ํ์ต ๋ฐ์ดํฐ๋ณด๋ค ๋น๊ต์ ๋ ์ฝ๊ฒ ๊ตฌํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ ผ๋ฌธ์์๋ SimVLM์ text-only downstream ๋ฐ์ดํฐ์์ fine-tune ํ๊ณ ๊ทธ๋ค์์ ๊ณต๋ VL task์์ zero-shot transfer๋ฅผ ํ๊ฐํ์๋ค.
๋ ผ๋ฌธ์์๋ zero-shot transfer ์ฑ๋ฅ์ ๊ฒ์ฌํ๊ธฐ ์ํด SNLI-VE์ Multi30k๋ฅผ ํ์ฉํ์๋ค. ํ 3์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, SimVLM์ zero-shot ์ธํ ์์ fully supervised baseline์ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
๊ฒ๋ค๊ฐ SimVLM์ MNLI ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ SNLI-VE ๋ฐ์ดํฐ์ ์ผ๋ก ์ ๋ฌ์ ํจ์ผ๋ก์จ ๋๋ฉ์ธ ์ ์๋ ๊ฐ๋ฅํ๋ค. ์ฌ๊ธฐ์ ๋ฐ์ดํฐ๋ ์๋ก ๋ค๋ฅธ modality๋ก๋ถํฐ ์ฌ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ๋๋ฉ์ธ์์ ์ค๊ธฐ๋ ํ๋ค. ๋ ผ๋ฌธ์์๋ SimVLM์ ์ฌ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ language์ modality ๊ฐ์ ์ ๋ฌ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ํ 3์ SimVLM์ด generative task์์ modality์ language ๊ฐ์ ์ง์ ์ ๋ฌ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ฉด์ supervised baseline์ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ ๋ํ ๋ฌ์ฑํ์๋ค. (๋์ฝ๋ฉ๋ ์์๋ ๊ทธ๋ฆผ 2์ (b) ์ฐธ๊ณ ) ๊ฒฐ๊ณผ๋ zero-shot cross-modality ์ ๋ฌ์ด weakly labeled ๋ฐ์ดํฐ์ scaling๊ณผ ํจ๊ป ๋ํ๋๋ค๋ ๊ฒ์ ์ ์ํ๋ค.
Open-ended VQA
SimVLM๊ณผ ๊ฐ์ generative model์ VQA ๊ฐ์ ๋ฌธ์ ๋ฅผ ์ฌ์ ์ ์ ์๋ ๋๋ต ์ค์์ ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๋ฌธ์ ๊ฐ ์๋ ์์ ํ์์ answer๋ฅผ ์์ฑํ๋ ๋ฌธ์ ๋ก ์๊ฐํ๋ ๋์์ด ๋๋ ์๋ฃจ์ ์ ์ ๊ณตํ์๋ค. ์ด๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ ์์ ์ธ๊ธํ PrefixLM loss๋ฅผ ์ฌ์ฉํด์ SimVLM์ fine-tune ํ์๋ค. ์ฌ๊ธฐ์๋ ์ด๋ฏธ์ง์ ์ง๋ฌธ์ prefix๋ก ์๊ฐํ๊ณ ๋ชจ๋ธ์ ํ์ต์์ผ์ ๋๋ต์ ์์ฑํ๊ฒ ํ์๋ค.
๋ค์์ ํ 4์์ ๋ถ๋ฅ method๋ฅผ ์ฌ์ฉํ generative ๋ฐฉ์๋ค์ ๋น๊ตํ์๋ค. ์ฒซ ๋ฒ์งธ๋ก ๋ ผ๋ฌธ์์๋ Karpathy-test split์ ํฌ๊ทํ ๋๋ต์ ์ฌ์ฉํ ์ง๋ฌธ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ๊ฒฐ๊ณผ๋ SimVLM์ด ๋ชจ๋ split์์ generative & discriminative baseline๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ฌ๊ธฐ์ ๋์ฑ ์ค์ํ ๊ฒ์ generative SimVLM์ด out-of-domain split์ ๋ํด์ 17 ํฌ์ธํธ ์ ๋์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ธ๋ฐ, ์ด๋ SimVLM์ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, ์ด๋ฌํ ์ ์ ์ ํฌ๊ทํ ๋๋ต์๋ง ์ง์คํ ์๋ ์๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ๋ณธ ์ ์๋ ์ผ๋ฐ์ ์ธ ๋๋ต์ ์ ์ผ๋ฐํ์ํค๋์ง๋ ๋ถ๋ถ๋ช ํ๋ค. ์ด๋ฅผ ์ํด Partial Train๋ ์ํํด ๋ณธ ๊ฒฐ๊ณผ, ํ 4๋ generative SimVLM์ด ์ด ์ ์ ์์๋ ์ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ ๋ฐ์ ์ผ๋ก ์ผ๋ฐ์ ์ธ ์ ์ ์์ generative SimVLM์ด discriminative SimVLM๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ์ผ๋ฐ์ ์ผ๋ก out-of-domain ์ผ์ด์ค์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
๋ ผ๋ฌธ์์๋ score ๊ณ์ฐ์ ์ํด ์์ฑ๋ ๋๋ต๊ณผ human label ๊ฐ์ ์๋ฒฝํ ์ผ์น๋ฅผ ์ฌ์ฉํ์์ง๋ง, ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ ํ์ ๋๋ ๋์์ด๋ฅผ ์ฌ์ฉํด์ ์ ์ ํ ๋๋ต์ ์์ฑํ ์๋ ์๋ค. ๋ฐ๋ผ์, ๊ทธ๋ฆผ 2์ (c)์์ ๊ด์ฐฎ์ ์์ฑ ๊ฒฐ๊ณผ๋ค์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด SimVLM์ด 3,129๊ฐ์ ํ๋ณด์ ์ธํธ์ ํฌํจ๋์ด ์์ง ์์ ๋๋ต(surgeon & wood carving)์ ์์ฑ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด๋ SimVLM์ด pre-training corpus์ผ๋ก๋ถํฐ ์ป์ ์ง์์ VQA์ ์ ๋ฌํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ฐ๋ผ์ SimVLM์ด fine-tuning ์์ด zero-shot VQA๋ฅผ ์ํํ ์ ์๋์ง์ ๋ํ ๊ถ๊ธ์ฆ์ด ์๊ธฐ๋ ๊ฒ์ ์์ฐ์ค๋ฝ๋ค. ๋ ผ๋ฌธ์ ์คํ์ ๋ฐ๋ฅด๋ฉด ๊ทธ๋ฆผ 2์ (d)์์ ๋ณด์ฌ์ง๋ ๊ฒ์ฒ๋ผ prompting ๋ฌธ์ฅ์ ์์ฑ์ํด์ผ๋ก์จ SimVLM์ '๋๋ต'์ ์์ฑํ ์ ์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋ชจ๋ธ์ด ์ค์ ์ง๋ฌธ์ ๋ํ ์๋ฏธ ์๋ ๋ต๋ณ์ ์์ฑํ๋ ๋ฐ ๋ถ์กฑํจ์ด ์์์ ๊ด์ฐฐํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด pre-training ๋ฐ์ดํฐ์ ๋ฎ์ ํ๋ฆฌํฐ ๋๋ฌธ์ด๋ผ๊ณ ๊ฐ์ ํ์๋ค. ์ด ๊ฐ์ ์ ์ฆ๋ช ํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ ๋ฆฌ๋์ด ์๋ WIT ๋ฐ์ดํฐ์ ์์ pre-training์ ์งํํด ๋ณธ ๊ฒฐ๊ณผ, ๊ทธ๋ฆผ 2์ (e)๋ ๊ทธ๋ด๋ฏํ open-ended VQA ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2108.10904
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
With recent progress in joint modeling of visual and textual representations, Vision-Language Pretraining (VLP) has achieved impressive performance on many multimodal downstream tasks. However, the requirement for expensive annotations including clean imag
arxiv.org