The overview of this paper
๋ค์ํ SoTA vision & vision-and-language ๋ชจ๋ธ๋ค์ ๋ค์ํ downstream task์์ ์ข์ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ๋๊ท๋ชจ์ vision-linguistic pre-training์ ์์กดํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก cross-model(contrastive) ์ด๊ฑฐ๋ multi-modal(earlier fusion)์ด๋ค. ๋ ๋ค ์๋๋ผ๋ฉด specific modality ๋๋ task๋ฅผ ํ๊น์ผ๋ก ํ๋ค. ์์ผ๋ก ๋์๊ฐ์ผ ํ ๋ฐฉํฅ์ ๋ชจ๋ modality๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ ํ๋์ universal model์ธ 'ํ ๋(foundation)'๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ชจ๋ธ์ธ FLAVA๋ฅผ ์๊ฐํ๊ณ 35๊ฐ์ task์์ ์ด ๋ชจ๋ธ์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Background
3. FLAVA: A Foundational Language And Vision Alignment Model
3-1. Model Architecture
3-2. Multimodal Pre-training Objectives
3-3. Unimodal Pre-training Objectives
3-4. Data: Public Multimodal Dataset(PMD)
4. Experiments
1. Introduction
vision & langauge transformer์ ๋๊ท๋ชจ pre-training์ ๋ค์ํ downstream task์์ ์ธ์์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ด๋๊ณ ์๋ค. ํนํ, CLIP๊ณผ ALIGN๊ณผ ๊ฐ์ contrastive method๋ ์์ฐ์ด supervision์ด ์ ์ด ํ์ต์ ์ํ ๋งค์ฐ ์ข์ ํ๋ฆฌํฐ์ visual model์ ๋ง๋ค ์ ์๊ฒ ํด์ค๋ค๊ณ ๋ณด์ฌ์คฌ๋ค.
ํ์ง๋ง contrastive method์๋ ๋ค์๊ณผ ๊ฐ์ ๋จ์ ์ด ์กด์ฌํ๋ค.
- cross-modal ํ๊ฒฝ์ multi-modal ํ๊ฒฝ์ ์ฌ์ฉ์ด ์ฉ์ดํ์ง ์์.
- ๋๊ท๋ชจ์ corpora๋ฅผ ํ์๋ก ํจ. ๋ฐ๋ผ์ ์ฐ๊ตฌ ํ๊ฒฝ์ ์ ํฉํ์ง ์์.
๋ง์ฝ ์๋ก ๋ค๋ฅธ ๋ฅ๋ ฅ์ ๋ํด ์ผ๋ฐํ๋ 'ํ ๋ ๋ชจ๋ธ' ํน์ ๋ฒ์ฉ์ ์ธ transformer๊ฐ ๋์ค๊ฒ ๋๋ค๋ฉด, ์์ ํ๊ณ์ ๋ค์ ๊ทน๋ณต๋ ๊ฒ์ด๋ค: vision & language ๊ณต๊ฐ์์ ์ง์ ํ ํ ๋ ๋ชจ๋ธ์ vision์๋ง ์ข์ ๋ฟ๋ง ์๋๋ผ language, vision-and-language ๋ฌธ์ ์๋ ์ข์์ผ ํ๋ค. ํ ๋ง๋๋ก ์ด 3๊ฐ์ง์ ๋ํด ๋์์ ๋ชจ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค์ผ ํ๋ค๋ ๊ฒ์ด๋ค.
์๋ก ๋ค๋ฅธ modality๋ก๋ถํฐ ์ ๋ณด๋ฅผ ์กฐํฉํด์ ํ๋์ ๋ฒ์ฉ์ ์ธ architecture๋ฅผ ๋ง๋๋ ๊ฒ์ ์ฌ๋์ด ์ธ์์ ์ธ์ํ๋ ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ ๋ฟ๋ง ์๋๋ผ ๋ ๋์ ์ํ ํจ์จ์ฑ๊ณผ ๋ ํ๋ถํ representation์ ์ด๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ vision, language, multi-modal ์กฐํฉ์ ๋์์ ์ฒ๋ฆฌํ๋ ๊ฒ์ ๋ชฉํ๋ก ์ผ๋ ํ ๋๊ฐ ๋๋ language & vision ์ ๋ ฌ ๋ชจ๋ธ์ธ FLAVA๋ฅผ ์๊ฐํ์๋ค. FLAVA๋ unimodal ๋ฐ์ดํฐ์ multi-modal ๋ฐ์ดํฐ์์ ๊ณต๋์ผ๋ก pre-train ํด์ ๊ฐ๋ ฅํ representation์ ํ์ตํ๋ค. FLAVA์ ์ฅ์ ์ open source ๋ฐ์ดํฐ์์ ํ์ตํด์ ํฅํ ์ฐ๊ตฌ ํ์ฉ์ ์ฉ์ดํ๋ค๋ ์ ๊ณผ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ๋ ์ ์ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ FLAVA์ ๋๋ต์ ์ธ ๊ฐ์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
2. Background
๋ค์์ ํ 1์ FLAVA๋ชจ๋ธ๊ณผ ์ ๋ช ํ ๋ชจ๋ธ๋ค ๊ฐ์ ๊ด๋ฒ์ํ ๋น๊ต๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ๋ค์๊ณผ ๊ฐ์ ๊ฒฝํฅ๋ค์ ๊ฐ์ง๊ณ ์๋ค.
- single target ๋๋ฉ์ธ์ ์ง์ค
- ๊ณต๋ vision-and-language ๋๋ฉ์ธ๊ณผ ํจ๊ป specific unimodal ๋๋ฉ์ธ์ ํ๊น์ ๋ .
- ๋ชจ๋ ๋๋ฉ์ธ์ ํ๊น์ ๋๋, ํน์ ๋๋ฉ์ธ์์๋ task์ specific ์ธํธ์ ํ๊น์ ๋ .
์ผ๋ฐ์ ์ผ๋ก vision-and-language ๊ณต๊ฐ์์ ๋ชจ๋ธ์ ๋ค์์ 2๊ฐ์ง ์นดํ ๊ณ ๋ฆฌ๋ก ๋๋ ์ง ์ ์๋ค.
- dual encoder: ์ด๋ฏธ์ง & ํ ์คํธ๋ฅผ ๋ฐ๋ก๋ฐ๋ก ์ธ์ฝ๋ฉ. ์์ ์ํธ์์ฉ์ ๊ฐ์ง. unimodal & cross-modal retrieval task์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค.
- fusion encoder: modality ๊ฐ์ self-attention์ ์ฌ์ฉ. visual reasoning & question answering์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค.
dual encoder ๋ชจ๋ธ์ ๊ฐ๋ฅํ $N^{2}$ ์กฐํฉ ์ค์์ ์๋ง์ $N$ ์์ ์์ธกํ๊ธฐ ์ํด contrastive pre-training์ ์ฌ์ฉํ๋ค. ์ด์๋ ๋ฐ๋๋ก, fusion encoder๋ masked language modeling(MLM), masked image modeling(MIM), ์ผ๋ฐ์ ์ธ language modeling(LM)์ ์๊ฐ์ ๋ฐ์๋ค.
์ด์ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ์ฌ, FLAVA๋ ๊ฐ๊ฐ์ vision, language, vision-and-language ๋๋ฉ์ธ์ ๊ด๋ฒ์ํ task์์ ์๋ํ๋ค. FLAVA๋ dual & fusion encoder ๋ฐฉ์์ ๋ ์นดํ ๊ณ ๋ฆฌ๋ก๋ถํฐ pre-training objective๋ฅผ ํ์ฉํ๋ ์๋ก์ด FLAVA pre-training ์คํค๋ง๋ฅผ ์ฌ์ฉํ์ฌ pre-train ํ ์ ์๋ holistic model์ ์กฐํฉํ์๋ค. FLAVA๋ multi-modal ์ ๋ฐ์ดํฐ์ ํจ๊ป ์์ ์ด๋ฃจ์ง ์๋ unimodal ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋๋ก ์ค๊ณ๋์ด unimodal ๋ฐ retireval task๋ ๋ฌผ๋ก cross-modal ๋ฐ multi-modal vision-and-language task๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ ์์ฑํ๋ค.
3. FLAVA: A Foundational Language And Vision Alignment Model
FLAVA์ ๋ชฉํ๋ unimodal vision & language ์ดํด ๋ฟ๋ง ์๋๋ผ multimodal ์ถ๋ฆฌ๋ฅผ ํ๋์ pre-trained model์์ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ foundational language & vision representation์ ํ์ตํ๋ ๊ฒ์ด๋ค.
3-1. Model Architecture
FLAVA ๋ชจ๋ธ์ ์ํคํ ์ฒ๋ ๋ค์์ ๊ทธ๋ฆผ 2์ ๋ํ๋์๋ค. ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ์ธ์ฝ๋๋ค๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ด ๋ชจ๋ ์ธ์ฝ๋๋ค์ transformer์ ๊ธฐ๋ฐ์ ๋๊ณ ์๋ค.
- image encoder: unimodal image representation์ ์ถ์ถ
- text encoder: unidmoal text representation์ ์ถ์ถ
- multimodal encoder: multi-modal ์ถ๋ฆฌ๋ฅผ ์ํด ์ด๋ฏธ์ง & ํ ์คํธ representation์ ์ตํฉํ๊ณ ์ ๋ ฌ
Image encoder. ViT-B/16 ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์๋ค. ์๋ ๋ฐฉ์์ ViT์ ์๋ ๋ฐฉ์๊ณผ ๋๊ฐ๊ณ , image encoder์ ์ถ๋ ฅ์ image hidden state ๋ฒกํฐ $\left\{ \textbf{h}_{I} \right\}$์ ๋ฆฌ์คํธ์ด๋ค. ๊ฐ๊ฐ์ ์ด๋ฏธ์ง ํจ์น์ ํด๋นํ๊ณ , [CLS_I]๋ฅผ ์ํ ์ถ๊ฐ์ $\textbf{h}_{CLS, I}$๋ฅผ ์ถ๊ฐํ๋ค. ์ฌ๊ธฐ์ [CLS_I] ํ ํฐ์ ์ด๋ฏธ์ง ๋ถ๋ฅ ํ ํฐ์ด๋ค.
Text encoder. ํ ์คํธ๊ฐ ๋ค์ด์ค๋ฉด tokenization์ ์ ์ฉํด์ word vector๋ก ์๋ฒ ๋ฉํ๋ค. ๊ทธ ๋ค์์, Transformer๋ก word vector๋ฅผ ํ ์คํธ ๋ถ๋ฅ ํ ํฐ์ธ [CLS_T]๋ฅผ ์ํ $\textbf{h}_{CLS, T}$๋ฅผ ํฌํจํ๋ hidden state ๋ฒกํฐ $\left\{ \textbf{h}_{T} \right\}$๋ก ์ธ์ฝ๋ฉํ๋ค. ์ค์ํ ๊ฒ์ ์ด์ ์ ์ฐ๊ตฌ๋ค๊ณผ ๋ฌ๋ฆฌ, FLAVA์ text encoder๋ image encoder์ ๋๊ฐ์ ViT ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ค.
Multimodal encoder. ์ด๋ฏธ์ง & ํ ์คํธ hidden state๋ฅผ ์ตํฉํ๊ธฐ ์ํด ๋ณ๊ฐ์ transformer๋ฅผ ์ฌ์ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, [CLS_M] ํ ํฐ์ ์ถ๊ฐํด์ $\left\{ \textbf{h}_{I} \right\}$ & $\left\{ \textbf{h}_{T} \right\}$ ๋ฒกํฐ๋ฅผ ํฉ์น๋ค. ํฉ์ณ์ง ๋ฒกํฐ๊ฐ multi-modal encoder transformer์ ๋ค์ด๊ฐ๊ณ , unimodal image & text representation ๊ฐ์ cross-attention์ ํตํด ๋ modality๋ฅผ ์ตํฉํ๋ค. multimodal encoder์ ์ถ๋ ฅ์ hidden states $\left\{ \textbf{h}_{M} \right\}$์ ๋ฆฌ์คํธ์ด๋ค.
Applying to downstream tasks. FLAVA ๋ชจ๋ธ์ unimodal & multi-modal task์ ๊ฐ๋จํ ๋ฐฉ์์ผ๋ก ์ ์ฉ๋ ์ ์๋ค. visual recognition task์ ๋ํด, ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ก๋ถํฐ ๋์จ unimodal $\textbf{h}_{CLS, I}$์ ์์ ๋ถ๋ฅ๊ธฐ ํค๋๋ฅผ ์ ์ฉํ์๋ค. ์ด์ ์ ์ฌํ๊ฒ, language understanding๊ณผ multi-modal reasoning task๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ ๊ฐ๊ฐ์ ํ ์คํธ ์ธ์ฝ๋๋ก๋ถํฐ ๋์จ $\textbf{h}_{CLS, T}$์ multi-modal ์ธ์ฝ๋๋ก๋ถํฐ ๋์จ $\textbf{h}_{CLS, M}$ ์์ ๋ถ๋ฅ๊ธฐ ํค๋๋ฅผ ์ ์ฉํ์๋ค.
3-2. Multimodal Pre-training Objectives
๋ ผ๋ฌธ์์๋ multi-modal ๋ฐ์ดํฐ ๋ฟ๋ง ์๋๋ผ unimodal ๋ฐ์ดํฐ์์๋ pre-training์ ํตํด ๊ฐ๋ ฅํ representation์ ์ป์ ์ ์๋๋ก ๋ชฉํ๋ฅผ ์ก์๋ค. FLAVA pre-training์ ๋ค์์ multi-modal objective๋ฅผ ํฌํจํ๊ณ ์๋ค.
Global contrastive(GC) loss. FLAVA์ image-text contrastive loss๋ CLIP์ ๊ฒ์ ๋ฐ๋ผํ์๋ค. ์ด๋ฏธ์ง์ ํ ์คํธ ๋ฐฐ์น๊ฐ ์ฃผ์ด์ง๋ฉด, ์ผ์นํ๋ ์ด๋ฏธ์ง & ํ ์คํธ ์์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ ์ต๋ํ์ํค๊ณ , ์ผ์นํ์ง ์๋ ์์ ๋ํด์๋ ์ต์ํ์ํจ๋ค. ์ด๋ ๊ฐ $\textbf{h}_{CLS,I}$ ๋ฐ $\textbf{h}_{CLS,T}$๋ฅผ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์ ํ์ผ๋ก ํฌ์ํ ๋ค์ L2-์ ๊ทํ, ๋ด์ ๋ฐ temperature์ ๋ฐ๋ผ ์กฐ์ ๋ softmax loss๋ฅผ ์ํํ์ฌ ์ํ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์ loss๋ฅผ 'global contrastive' $L_{GC}$๋ก ๋ถ๋ฅธ๋ค. ์ด๊ฒ์ 'local contrastive' ๋ฐฉ์๊ณผ ๊ตฌ๋ถํ๊ธฐ ์ํด์์ด๋ค.
Masked multimodal modeling(MMM). ์ด๋ฏธ์ง ํจ์น์ ํ ์คํธ ํ ํฐ์ ํจ๊ป ๋ง์คํนํ๊ณ ๋ modality์์ ๊ณต๋์ผ๋ก ์๋ํ๋ ์๋ก์ด masked multimodal modeling(MMM) pre-training objective $L_{MMM}$์ ์๊ฐํ์๋ค. ์ด๋ฏธ์ง์ ํ ์คํธ ์ ๋ ฅ์ด ์ฃผ์ด์ง๋ฉด, ๊ฐ๊ฐ์ ์ด๋ฏธ์ง ํจ์น๋ฅผ word dictionary์ ์ ์ฌํ visual codebook์ ์ธ๋ฑ์ค๋ก ๋งคํํ๋ pre-trained dVAE tokenizer๋ฅผ ์ฌ์ฉํด์ ์ ๋ ฅ ์ด๋ฏธ์ง ํจ์น๋ฅผ ํ ํฐํํ๋ค. ๊ทธ ๋ค์์, ์ฌ๊ฐํ ๋ธ๋ก ์ด๋ฏธ์ง ์์ญ์ ๊ธฐ๋ฐ์ ๋ ์ด๋ฏธ์ง ํจ์น์ ์๋ธ์ ์ ์คํ์ [MASK] ํ ํฐ์ผ๋ก ๋์ฒดํ๊ณ , 15%์ ํ ์คํธ ํ ํฐ๋ [MASK] ํ ํฐ์ผ๋ก ๋์ฒดํ๋ค. ๊ทธ ๋ค์์, multi-modal encoder์ ์ถ๋ ฅ $\left\{ \textbf{h}_{M} \right\}$ ๋ก๋ถํฐ ๋ค์ธต ํผ์ ํธ๋ก ์ ์ ์ฉํ์ฌ ๋ง์คํน๋ ์ด๋ฏธ์ง ํจ์น์ visual codebook ์ธ๋ฑ์ค ๋๋ ๋ง์คํน๋ ํ ์คํธ ํ ํฐ์ word vocabulary ์ธ๋ฑ์ค๋ฅผ ์์ธกํ๋ค.
Image-text matching(ITM). ์ด์ ์ vision-and-language pre-training ๋ฐฉ๋ฒ๋ค์ ๋ฐ๋ผ์ image-text matching loss $L_{ITM}$์ ์ถ๊ฐํ์๋ค. pre-training ์ค์ ๋ ผ๋ฌธ์์๋ ์ผ์นํ๊ฑฐ๋ ์ผ์นํ์ง ์๋ image-text ์ ๋ชจ๋๋ฅผ ํฌํจํ๋ ์ํ ๋ฐฐ์น๋ฅผ ๋ฃ์ด์ค๋ค. ๊ทธ๋ฌ๋ฉด multi-modal encoder ๋ก๋ถํฐ ๋์จ $\textbf{h}_{CLS, M}$์ ์์ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ ์ฉํด์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์ผ์นํ๋์ง ๊ฒฐ์ ํ๋ค.
3-3. Unimodal Pre-training Objectives
3-2์์ ์ค๋ช ํ objective๋ค์ ์์ ์ด๋ฃฌ image-and-text ๋ฐ์ดํฐ์์ FLAVA model์ pre-training ํ ์ ์์ผ๋ฉฐ, ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์ ๋ค๋ฅธ modality์ ์ ๋ฐ์ดํฐ ์์ด unimodal์ด๋ค. ๊ด๋ฒ์ํ downstream task์ ๋ํด์ ํจ์จ์ ์ผ๋ก representation์ ํ์ตํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์ด ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๊ณ unimodal ๋ฐ ์ ๋ ฌ๋์ง ์์ ์ ๋ณด๋ฅผ representation์ ํตํฉํ๊ณ ์ ํ๋ค.
์ด ์์ ์์๋ ๋ค์์ ํตํด ์ด๋ป๊ฒ unimodal ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ง์๊ณผ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ค๋์ง ์๊ฐํ์๋ค.
- multi-modal ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ์ง & ํ ์คํธ ์ธ์ฝ๋ pre-training
- ์ ์ฒด FLAVA ๋ชจ๋ธ์ unimodal & multi-modal ๋ฐ์ดํฐ์ ๋ชจ๋์์ ๊ณต๋์ผ๋ก pre-training
- pre-trained ์ธ์ฝ๋์์ ์์ํ ๋ค์ ๊ณต๋ ํ์ต์ ํตํด ๋ ๊ฐ์ง๋ฅผ ๊ฒฐํฉํ๋ค.
stand-alone ์ด๋ฏธ์ง ๋๋ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ ์ฉํ ๋, ๋ ผ๋ฌธ์์๋ masked image modeling(MIM)๊ณผ masked language modeling(MLM) loss๋ฅผ ์ด๋ฏธ์ง & ํ ์คํธ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์๋ค.
Masked image modeling(MIM). unimodal ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์์๋ BEiT์ ์ฌ๊ฐํ block-wise masking์ ๋ฐ๋ผ์ ์ด๋ฏธ์ง ํจ์น ์ธํธ๋ฅผ ๋ง์คํนํ๊ณ ๋ค๋ฅธ ์ด๋ฏธ์ง ํจ์น๋ก๋ถํฐ ์ฌ๊ตฌ์กฐํํ์๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง๋ ์ฒ์์ pre-trained dVAE tokenizer๋ฅผ ์ฌ์ฉํด์ ํ ํฐํ๋์๊ณ , ๊ทธ ๋ค์์ masked ํจ์น์ dVAE ํ ํฐ์ ์์ธกํ๊ธฐ ์ํด ์ด๋ฏธ์ง ์ธ์ฝ๋ ์ถ๋ ฅ $\left\{ \textbf{h}_{I} \right\}$์ ๋ถ๋ฅ๊ธฐ๊ฐ ์ ์ฉ๋์๋ค.
Masked language modeling(MLM). ๋ ผ๋ฌธ์์๋ stand-alone ํ ์คํธ ๋ฐ์ดํฐ์ ์์ pre-train ํ๊ธฐ ์ํด ํ ์คํธ ์ธ์ฝ๋์ ์์ masked language modeling loss๋ฅผ ์ ์ฉํ์๋ค. ์ ๋ ฅ์์ ํ ์คํธ ํ ํฐ์ ์ผ๋ถ(15%)๋ ๋ง์คํน๋๊ณ unimodal text hidden states ์ถ๋ ฅ $\left\{ \textbf{h}_{T} \right\}$์ ์์ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉํด์ ๋ค๋ฅธ ํ ํฐ์ผ๋ก๋ถํฐ ์ฌ๊ตฌ์กฐํ๋๋ค.
Encoder initialization from unimodal pre-training. ๋ ผ๋ฌธ์์๋ 3๊ฐ์ ์์ค์ ๋ฐ์ดํฐ๋ฅผ pre-training์ ์ํด ์ฌ์ฉํ์๋ค: unimodal image(ImageNet-1K), unimodal text data(CCNews & BookCorpus), multimodal image-text ์ ๋ฐ์ดํฐ. ๋ ผ๋ฌธ์์๋ ์ฒ์์ unimodal text ๋ฐ์ดํฐ์ ์์ MLM objective๋ฅผ ์ฌ์ฉํ์ฌ ํ ์คํธ ์ธ์ฝ๋๋ฅผ pre-train ํ์๋ค. ๊ทธ ๋ค์์ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ํ ์๋ก ๋ค๋ฅธ pre-training ๋ฐฉ๋ฒ์ ์คํํด๋ณด์๋ค: unimodal & multimodal ๋ฐ์ดํฐ์ ์์ ๊ณต๋์ผ๋ก ํ์ตํ๊ธฐ ์ ์ MIM๊ณผ DINO objective๋ฅผ ์ฌ์ฉํ์ฌ ์์ด ๋ง์ง ์๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ pre-trainํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ธฐํ ํ ์ด๋ฏธ์ง์์ MIM objective๋ก ์ ํํ์์๋ ๋ถ๊ตฌํ๊ณ DINO๊ฐ ๊ฝค ์ ์๋ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๊ทธ ๋ค์์ ๋ ผ๋ฌธ์์๋ ์ ์ฒด FLAVA ๋ชจ๋ธ์ ๋ ๊ฐ์ ๊ฐ๊ธฐ์ nuimodally pre-trained ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐํํ๊ฑฐ๋, ๋งจ ์ฒ์๋ถํฐ ํ์ต์ ํ ๋๋ ๋๋คํ๊ฒ ์ด๊ธฐํํ์๋ค. ๋ ผ๋ฌธ์์๋ pre-training์ ์ํด ํญ์ multi-modal encoder๋ฅผ ๋๋คํ๊ฒ ์ด๊ธฐํํ์๋ค.
Joint unimodal and multimodal training. ์ด๋ฏธ์ง & ํ ์คํธ ์ธ์ฝ๋์ unimodal pre-training ํ์ round-robin ์ํ๋ง์ ์ฌ์ฉํ์ฌ 3๊ฐ์ ์ ํ์ ๋ฐ์ดํฐ์ ์์ ๊ณต๋์ผ๋ก ์ ์ฒด FLAVA ๋ชจ๋ธ ํ์ต์ ๊ณ์ํ์๋ค. ๊ฐ ํ์ต ๋ฐ๋ณต์์ ๊ฒฝํ์ ์ผ๋ก ๊ฒฐ์ ํ ์ํ๋ง ๋น์จ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ค ํ๋๋ฅผ ์ ํํ๊ณ ์ํ ๋ฐฐ์น๋ฅผ ์ป๋๋ค. ๊ทธ ๋ค์์ ๋ฐ์ดํฐ์ ์ ํ์ ์์กดํด์, unimodal MIM์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์, unimodal MLM์ ํ ์คํธ ๋ฐ์ดํฐ์, multimodal loss๋ฅผ image-text ์์ ์ ์ฉํ์๋ค.
3-4. Data: Prublic Multimodal Datasets(PMD)
multi-modal pre-training์ ์ํด ๋ ผ๋ฌธ์์๋ image-text ๋ฐ์ดํฐ์ ๋์ค์ ๊ณต๊ฐ๋ ์์ค์ corpus๋ก ๊ตฌ์ฑ๋์๋ค. ์ ์ฒด text-image ์์ ์๋ 70M ์ ๋์ด๋ค.
4. Experiments
๋ ผ๋ฌธ์์๋ FLAVA๋ฅผ vision, language, multi-modal task์์ ํ๊ฐํ์๋ค. ๊ฐ ๋ฅ๋ ฅ๋ค์ ์ํด ํ๊ฐํ task๋ ๋ค์๊ณผ ๊ฐ๋ค.
- vision tasks: 22 common vision tasks
- NLP tasks: GLUE ๋ฒค์น๋งํฌ์ 8๊ฐ์ tasks
- multi-modal tasks: VQAv2, SNLI-VE, Hateful Memes, Flickr30K, COCO
๋ ผ๋ฌธ์์๋ ๋ค๋ฅธ ์ธํ ์ ์ฌ์ฉํ ๊ณต๋ pre-training method์ ๋ค์ํ 35๊ฐ์ task์์ ๋น๊ตํ์๋ค. ์ด๋ฅผ ์ํด NLP, vision, multi-modal task์ ๋ํ ํ๊ท ์ ์๋ฅผ ๊ธฐ๋กํ๊ณ , ์ถ๊ฐ์ ์ธ macro average๋ฅผ 3๊ฐ์ modality๋ฅผ ํ 2์์ ๋น๊ตํ์๊ณ , ๊ฐ task์ ๋ํ ์์ธํ ์ฑ๋ฅ์ ํ 3์ ๊ธฐ๋กํ์๋ค.
Full FLAVA pre-training achieves the best results. ํ 2์์๋ baseline๊ณผ ์๋ก ๋ค๋ฅธ ablation ์ธํ ์ FLAVA๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค: unimodal MIM๊ณผ MLM loss๋ง์ ์ฌ์ฉํด์ ํ์ต๋ ๋ชจ๋ธ, image-text contrastive loss์์๋ง ํ์ต๋ FLAVA_C, multi-=modal ๋ฐ์ดํฐ์์ unimodal ์ด๊ธฐํ์์ด ํ์ต๋ FLAVA_MM, ๊ทธ๋ฆฌ๊ณ full model. ์ ํ 2์ 6ํ์ ๋ณด๋ฉด full FLAVA model์ด ๋ค๋ฅธ ๋ชจ๋ ์ธํ ์ ํ๊ท ์ค์ฝ์ด๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ํ์ธํ ์ ์๋ค.
Effective global contrastive loss in FLAVA. ์ด์ ๋ FLAVA์ step-by-step ablation์ ์ํํ ๊ฒ์ด๋ค(ํ 3). ๋ ผ๋ฌธ์์๋ ์ฒ์์ ์ค์ง global contrastive loss $L_{GC}$๋ง์ ์ฌ์ฉํด์ FLAVA์ ์ ํ๋ ๋ฒ์ ์ multi-modal ๋ฐ์ดํฐ์์ ํ์ต์์ผฐ๊ณ , ์ด๊ฒ์ 3์ด์ $FLAVA_{C}$๋ก ๋ํ๋ด์๋ค. ์ด๋ฌํ ์ ํ๋ ์ธํ ์ CLIP๊ณผ ์ ์ฌํ๋ฐ, ๋ ผ๋ฌธ์์๋ ๋๊ฐ์ PMD ๋ฐ์ดํฐ์์ ํ์ต๋ CLIP๊ณผ $FLAVA_{C}$๋ฅผ ๋น๊ตํ์๋ค. (ํ 2์ 3์ด๊ณผ 7์ด ๋น๊ต) ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด $FLAVA_{C}$๊ฐ vision, language, multi-modal ๋๋ฉ์ธ์์ ๋ชจ๋ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ ๋ค์์ 2๊ฐ์ ์์ธ ๋๋ถ์ด๋ค:
- FLAVA์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ ๋ํ ์ผ
- global back-propagation์ ๋ชจ๋ GPU worker์ ๋ํด ์ํ
MMM & ITM objective benefit multimodal tasks. ๋ค์์ผ๋ก๋ ๋ค๋ฅธ multimodal objectives์ธ $L_{MMM}$๊ณผ $L_{ITM}$์ $L_{GC}$์ ํจ๊ป ์ฌ์ฉํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ํ 3์ 4์ด์ $FLAVA_{MM}$์ผ๋ก ๋ํ๋์๋ค. ์ค์ง contrastive loss๋ง ์ฌ์ฉํ $FLAVA_{C}$(3์ด vs. 4์ด)์ ๋น๊ตํด๋ณด๋ฉด, ์ด ์ธํ ์ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
์ถ๊ฐ์ ์ผ๋ก $FLAVA_{MM}$์ ๋ค๋ฅธ ๋ baseline ์ธํ ๊ณผ ๋น๊ตํ์๋ค - ์ค์ง unimodal MIM ๋๋ MLM loss๋ฅผ ์ฌ์ฉํด์ ํ์ตํ FLAVA ๋ชจ๋ธ. ์ด ๋ baseline์ ํ 3์ 1์ด๊ณผ 2์ด์ ๋ํ๋ ์๋ค. ์ด๊ฒ์ ๋ณด๋ฉด ์ด baseline๋ค์ด $FLAVA_{MM}$๋ณด๋ค ์ฑ๋ฅ์ด ํจ์ฌ ๋ ๋ฐ์ด๋ ๊ฒ์ ์ ์ ์๋ค. ์ด ๊ฒฐ๊ณผ๋ค์ ์ข ํฉ multimodal objectives(contrastive, MMM, ITM)์ด FLAVA๊ฐ unimodal & multimodal downstream task์ ๋ํด ๊ฐ๋ ฅํ representation์ ํ์ตํ๋๋ก ํ๋ฝํด์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
Joint unimodal & multimodal pre-training helps NLP. full FLAVA pre-training์ ์ํด, ๋ ผ๋ฌธ์์๋ ImageNet-1k๋ก๋ถํฐ unimodal ๋ฐ์ดํฐ๋ฅผ ์๊ฐํ์๊ณ , CCNews์ BookCorpus๋ก๋ถํฐ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์๊ฐํ์๋ค. ์ด ์ธํ ์์ ์ ์ฉ๋ loss๋ ๋ค์๊ณผ ๊ฐ๋ค(ํ 3์ 5์ด).
- $FLAVA_{MM}$ loss: PMD ๋ฐ์ดํฐ ๋ฐฐ์น์ ์ ์ฉ
- MIM loss: IN-1k unimodal ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ์ฉ
- MLM loss: CCNews ํ ์คํธ ๋ฐ์ดํฐ์ ์ ์ฉ
์ด๊ฒ์ multi-modal pre-training๋ง ์๋ 4์ด์ $FLAVA_{MM}$๊ณผ ๋น๊ตํ๋ฉด, ์ด ๊ณต๋ unimodal & multimodal pre-training์ NLP ํ๊ท ์ค์ฝ์ด๋ฅผ ํฅ์์ํจ๋ค. ์ด๊ฒ์ CCNews์ BookCorpus๋ก๋ถํฐ์ ์ถ๊ฐ์ ์ธ ๋ฐ์ดํฐ๋ MLM objective๋ฅผ ํตํด language understanding์ ์ด์ต์ ์ค๋ค๋ ๊ฒ์ ์ ์ํ๋ค.
ํ์ง๋ง 4์ด๊ณผ 5์ด๊ณผ์ ๋น๊ต์์ ๋ชจ๋ task์ ๋ํ macro ํ๊ท ์ ์๊ฐ ์ด์ง ๊ฐ์ํ๋ค๋ ๊ฒ ๋ํ ๊ด์ฐฐํ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด ์๋ก ๋ค๋ฅธ task๋ฅผ ์ถ๊ฐํด์ ์์ ๊ฒ์ด ํนํ ์ ์ฒด ๋ชจ๋ธ์ด ๋๋คํ๊ฒ ์ด๊ธฐํ ๋ ๋ ์ต์ ํ ๋ฌธ์ ๋ฅผ ๋์ฑ ์ด๋ ต๊ฒ ๋ง๋๋ ๊ฒ์ผ๋ก ์ถ์ธกํ์๋ค. ๋ฐ๋ผ์ multimodal task๋ฅผ ํ์ตํ๊ธฐ ์ ์ vision & language understanding์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ด ์ค์ํ๋ค. ์ด๊ฒ์ ์ด ๋ ผ๋ฌธ์ผ๋ก ํ๊ฒ๋ ์ฒ์์ผ๋ก unimodal pre-training์ ๊ณต๋ ํ์ต ์ ์ ํ์ฉํ๊ฒ ๋ง๋ค์๋ค.
Better image & text encoder via unimodal pre-training. ๊ณต๋ ํ์ต ์ด์ ์ unimodal ํ์ต์ ํ์ฉํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ vision & language encoder์ ๋ํ pre-trained self-supervised ๊ฐ์ค์น๋ก๋ถํฐ ๋ชจ๋ธ์ ์ด๊ธฐํํ์๋ค. ํ 3์ 5์ด๊ณผ 6์ด์ ๋น๊ตํ๋ฉด, pre-trained encoder๊ฐ FLAVA์ ์ฑ๋ฅ์ ๋ชจ๋ task์ ๋ํด์ ํฅ์์ํค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
4-1. Comparison to state-of-the-art models
๋ ผ๋ฌธ์์๋ full FLAVA ๋ชจ๋ธ(ํ 3์ 6์ด)์ ์ฌ๋ฌ SoTA ๋ชจ๋ธ๋ค๊ณผ multimodal task, language task, ImageNet ์ ํ ํ๊ฐ์์ ๋น๊ตํ์๋ค. ํ 4๋ฅผ ๋ณด๋ฉด FLAVA๋ language ๋ฐ multi-modal task ๋ชจ๋์์ ๊ณต๊ฐ ๋ฐ์ดํฐ(4ํ์์ 11ํ)๋ก pre-train๋ ์ด์ ์ multi-modal ๋ฐฉ์๊ณผ ์ ํ๋ฆฝ๋ BERT ๋ชจ๋ธ๋ณด๋ค ํฌ๊ฒ ๋ฅ๊ฐํ๋ฉฐ ์ฌ๋ฌ GLUE ์์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
FLAVA๋ unimodal loss์ multi-modal loss๋ฅผ ํฉ์น๊ณ vision, language, multi-modal task๋ก ์ ์ด๋ ์ ์๋ ๋์ฑ ์ผ๋ฐ์ ์ธ representation์ ํ์ตํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ 400M image-text ์์ ์ฌ์ฉํ๊ณ , FLAVA์ ๋๊ฐ์ ์ด๋ฏธ์ง ์ธ์ฝ๋์ธ ViT-B/16์ ์ฌ์ฉํ CLIP๊ณผ task ๋ฒค์น๋งํฌ์์ ๋น๊ตํ์๋ค. (ํ 4์ 2ํ) CLIP๊ณผ ๋น๊ตํ์ฌ FLAVA๋ 6๋ฐฐ ๋ ์ ์ 70M ๋ฐ์ดํฐ์์ ํ์ตํ์๋ค. ๊ทธ๋ฆผ 3์ ๋ณด๋ฉด FLAVA๊ฐ language & multi-modal task์์ ์ด์ง ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ฉด, ๋ช ๊ฐ์ vision-only task์์๋ CLIP๋ณด๋ค ์ด์ง ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ์ถ๊ฐ์ ์ผ๋ก FLAVA๋ ์ค์ง PMD ๋ฐ์ดํฐ์ ์์ pre-train๋ CLIP model์ ๋ณํ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค (ํ 4์ 10ํ).
FLAVA๋ language task์์ SimVLM(ํ 4์ 3ํ)๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ฉด, multi-modal task์ ImageNet ์ ํ ํ๊ฐ์์๋ ์ด์ง ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. FLAVA๋ 1.8B image-text ์์ ๋นํด ํจ์ฌ ์์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๊ณ FLAVA์ ์ฑ๋ฅ์ pre-training ๋ฐ์ดํฐ์ ์ ์ฌ์ด์ฆ๊ฐ ์ฆ๊ฐํ๊ฒ ๋๋ฉด ๋์ฑ ์ฆ๊ฐํ ๊ฒ์ด๋ผ๊ณ ์์๋๋ค.
์ถ์ฒ