The overview of this paper
๋๋ถ๋ถ์ vision & language representation ํ์ต์๋ visual token๊ณผ word token์ ๊ณต๋์ผ๋ก ๋ชจ๋ธ๋งํ๊ธฐ ์ํด transformer ๊ธฐ๋ฐ multi-modal encoder๊ฐ ์ฌ์ฉ๋๊ณ ์๋ค. ์๋ํ๋ฉด visual ํ ํฐ๊ณผ word ํ ํฐ์ด ์ ๋ ฌ๋์ด ์์ง ์์ผ๋ฉด, multi-modal model์ด image-text ์ํธ์์ฉ์ ํ์ตํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ ALign the image & text representations BEfore Fusing(ALBEF) ํ๊ธฐ ์ํด ๋์ฑ gorunded vision & language ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ cross-modal attention์ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ contrastive loss๋ฅผ ์๊ฐํ์๋ค. ๊ธฐ์กด์ method๋ค๊ณผ ๋
ผ๋ฌธ์ method๋ bounding box์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๊ฐ ํ์ ์๋ค. noisy web data๋ก๋ถํฐ ํ์ต์ ํฅ์ํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ momentum model์ ์ํด ์์ฑ๋ ๋ชจ์กฐ์ ํ๊น์ผ๋ก๋ถํฐ ํ์ตํ๋ self-training method์ธ momentum distillation์ ์ ์ํ์๋ค.
Table of Contents
1. Introduction
2. ALBEF Pre-training
3. A Mutual Information Maximization Perspective
4. Downstream V+L Tasks
5. Experiments
6. Conclusion
1. Introduction
๊ธฐ์กด์ VLP method๋ค์ ๋๋ถ๋ถ region ๊ธฐ๋ฐ์ image feature์ ์ถ์ถํ๊ธฐ ์ํ pre-trained object detector์ ์์กดํ๊ณ , image feature๊ณผ word token์ ์ตํฉํ๊ธฐ ์ํด multi-modal encoder์ ์ฌ์ฉํ๊ณ ์๋ค. ์ด๋ฌํ multi-modal encoder๋ ์ด๋ฏธ์ง์ ํ
์คํธ ๊ณต๋์ ์ดํด๋ฅผ ์๊ตฌํ๋ masked language modeling(MLM)๊ณผ image-text matching(ITM) ๊ฐ์ task์์ ํ์ต๋๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ ํจ๊ณผ์ ์ด๊ธด ํ์ง๋ง, ๋ช ๊ฐ์ง ์ค์ํ ํ๊ณ์ ์ ๊ฐ๊ณ ์๋ค.
- image feature & word token ์๋ฒ ๋ฉ์ ์๋ก ๋ค๋ฅธ ๊ณต๊ฐ์ ์์. ์ด๊ฒ์ด ์ด๋ค ๊ฐ์ ์ํธ์์ฉ์ ์ด๋ ต๊ฒ ๋ง๋ฆ.
- object detector๋ ๋ผ๋ฒจ๋ง & ๊ณ์ฐ์ ์ผ๋ก ๋น์ฉ์ด ๋น์. ์๋ํ๋ฉด pre-training ์์๋ bounding box๋ฅผ ํ์๋ก ํ๊ณ , inference ์์๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์.
- ๊ธฐ์กด image-text ๋ฐ์ดํฐ๋ ์น์์ ์์ง๋๊ธฐ ๋๋ฌธ์ noise๊ฐ ์์ฌ ์์. ๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด์ pre-training objective๋ noisy text์ overfit ๋์ด์ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ค์ด๊ทธ๋ ์ด๋ ์ํจ๋ค.
๋
ผ๋ฌธ์์๋ ์ด๋ฌํ ํ๊ณ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ALign BEfore Fuse(ALBEF)๋ผ๋ ์๋ก์ด VLP method๋ฅผ ์ ์ํ์๋ค. ALBEF๋ ๋ค์์ ๊ณผ์ ์ ๊ฑฐ์ณ์ ์๋ํ๋ค.
- detector-free ์ด๋ฏธ์ง ์ธ์ฝ๋ & ํ ์คํธ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํด์ ์ด๋ฏธ์ง & ํ ์คํธ๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก encoding ํจ.
- cross-modal attention์ ํตํด multi-modal encoder๋ก image feature & text feature๋ฅผ ์ตํฉ์ํด.
๋
ผ๋ฌธ์์๋ ๋ค์์ ์ธ ๊ฐ์ง ๋ชฉ์ ์ ์๋ฐํ๋ image-text contrastive(ITC) loss๋ฅผ ์๊ฐํ์๋ค. ์ด ITC loss๋ unimodal encoder๋ก๋ถํฐ representation์ ๋ํ loss์ด๋ค.
- cross-modal learning์ ์ํํ๊ธฐ ์ํด image & text feature๋ฅผ ์ ๋ ฌํจ.
- ์ด๋ฏธ์ง์ ํ ์คํธ์ semantic meaning์ ๋ ์ ์ดํดํ๊ธฐ ์ํด unimodal encoder๋ฅผ ํฅ์์ํด.
- ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์๋ฒ ๋ฉํ๊ธฐ ์ํด ์ ์ฐจ์ ๊ณต๊ฐ์ ํ์ต. ์ด๋ contrastive hard negative mining์ ํตํด ๋์ฑ ์ ๋ณด์ ์ธ ์ํ์ ์ฐพ๊ธฐ ์ํ image-text matching objective๊ฐ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์ด ์ค.
noisy supervision์์์ ํ์ต์ ํฅ์์ํค๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ ๋ชจ๋ธ์ด ๋์ฑ ํฐ uncurated ์น ๋ฐ์ดํฐ์
์ ํ์ฉํ๊ฒ ํด์ฃผ๋ ๊ฐ๋จํ method์ธ Momentum Distillation(MoD)์ ์ ์ํ์๋ค. ํ์ต ์ค์ ๋
ผ๋ฌธ์์๋ ์ด ํ๋ผ๋ฏธํฐ๋ค์ ์ด๋ ํ๊ท (moving-average)์ ์ทจํจ์ผ๋ก์จ ๋ชจ๋ธ์ momentum ๋ฒ์ ์ ์ ์งํ๊ณ , ๋ชจ์กฐ ํ๊น์ ์ถ๊ฐ์ supervision์ผ๋ก ์์ฑํ๊ธฐ ์ํด momentum model์ ์ฌ์ฉํ์๋ค. MoD๋ฅผ ์ฌ์ฉํ๋ฉด, ๋ชจ๋ธ์ ์น ๋ผ๋ฒจ๋ง๊ณผ๋ ๋ค๋ฅด์ง๋ง ๋ค๋ฅธ ํฉ๋ฆฌ์ ์ธ ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฒ์ ๋ํด ๋ฒ์ ์ฃผ์ง ์์๋ค. ๋
ผ๋ฌธ์์๋ MoD๊ฐ pre-training์ ํฅ์์ํฌ ๋ฟ๋ง ์๋๋ผ ์ ๋ฆฌ๋ ๋ผ๋ฒจ์ ์ฌ์ฉํ์ฌ downstream task์์๋ ํฅ์๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
2. ALBEF Pre-training
2-1. Model Architecture
๊ทธ๋ฆผ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, ALBEF๋ image, text, multi-modal encoder๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋
ผ๋ฌธ์์๋ 12-layer visual transformer์ธ ViT-B/16์ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ก ์ฌ์ฉํ๊ณ ImageNet-1k์์ pre-train ๋ ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐํํ์๋ค. ์
๋ ฅ ์ด๋ฏธ์ง $I$๋ ์๋ฒ ๋ฉ $\left\{ \textbf{v}_{cls}, \textbf{v}_{1}, ..., \textbf{v}_{N} \right\}$ ์ ์ํ์ค๋ก ์ธ์ฝ๋ฉ ๋๋ค. ์ฌ๊ธฐ์ $v_{cls}$๋ [CLS] ํ ํฐ์ ์๋ฒ ๋ฉ์ด๋ค. text encoder๋ BERT BASE์ ๋ง์ง๋ง 6๊ฐ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐํ๋๋ค. ํ
์คํธ ์ธ์ฝ๋๋ ์
๋ ฅ ํ
์คํธ $T$๋ฅผ ์๋ฒ ๋ฉ $\left\{ \textbf{w}_{cls}, \textbf{w}_{1}, ..., \textbf{w}_{N} \right\}$์ ์ํ์ค๋ก ์ธ์ฝ๋ฉ ๋ผ์ multi-modal encoder์ ๋ค์ด๊ฐ๊ฒ ๋๋ค. image feature์ multi-modal encoder์ ๊ฐ ๋ ์ด์ด์์ cross attention์ ํตํด text feature์ ํจ๊ป ์ตํฉ๋๋ค.
2-2. Pre-training Objectives
๋
ผ๋ฌธ์์๋ ALBEF๋ฅผ 3๊ฐ์ objective๋ฅผ ์ฌ์ฉํ์ฌ pre-train ํ์๋ค: unimodal encoder์์ image-text contrastive(ITC) ํ์ต, multi-modal encoder์์ masked language modeling(MLM) & image-text matching(ITM). ๋
ผ๋ฌธ์์๋ ITM์ ์จ๋ผ์ธ contrastive hard negative mining์ ์ฌ์ฉํ์ฌ ํฅ์์์ผฐ๋ค. hard negative mining์ ๋ถ๋ฅ ๋ฌธ์ ์์ ๋์ฑ ์ด๋ ค์ด negative ์ํ์ ๋ชจ์ผ๋ ๊ฒ์ด๋ค. ์ด๋ ๋ชจ๋ธ์ ํ์ต ๋์ด๋๋ฅผ ๋ ์ด๋ ต๊ฒ ํด์ ๋์ฑ ํจ๊ณผ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Image-Text Contrastive Learning์ ์ตํฉ ์ด์ ์ ๋ ๋์ unimodal representation์ ํ์ตํ ์ ์๋๋ก ๋ชฉํ๋ฅผ ์ก์๋ค. ์ด ํ์ต์ ๋ณ๋ ฌ image-text ์์ด ๋ ๋์ ์ ์ฌ์ฑ ์ ์๋ฅผ ๊ฐ๋๋ก ์ ์ฌ๋ ํจ์ $s = g_{v}(\textbf{v}_{cls})^{\top}g_{w}(\textbf{w}_{cls})$์ ํ์ต์์ผฐ๋ค. $g_{v}$์ $g_{w}$๋ [CLS] ์๋ฒ ๋ฉ์ ์ ๊ทํ๋ ์ ์ฐจ์ representation์ผ๋ก ๋งคํํ๋ ์ ํ ๋ณํ์ด๋ค. momentum encoder๋ก๋ถํฐ ์ป์ด์ง ์ ๊ทํ๋ feature๋ $g_{v}^{'}(\textbf{v}_{cls}^{'})$์ $g_{w}^{'}(\textbf{w}_{cls}^{'})$๋ก ํ์๋๋ค. ๋
ผ๋ฌธ์์๋ $s(I, T) = g_{v}(\textbf{v}_{cls})^{\top}g_{w}^{'}(\textbf{w}_{cls}^{'})$์ $s(T, I) = g_{w}(\textbf{w}_{cls})^{\top}g_{cls}^{'}(\textbf{v}_{cls}^{'})$.
๊ฐ๊ฐ์ ์ด๋ฏธ์ง & ํ
์คํธ์ ๋ํด์, ๋
ผ๋ฌธ์์๋ softmax ์ ๊ทํ๋ image-to-text & text-to-image ์ ์ฌ๋๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐํ์๋ค:
์ฌ๊ธฐ์ $\tau$์ ํ์ต ๊ฐ๋ฅํ temperature ํ๋ผ๋ฏธํฐ์ด๋ค. $\textbf{y}^{i2t}(I)$์ $\textbf{y}^{t2i}(T)$์ ground-truth one-hot ์ ์ฌ๋๋ฅผ ๋ํ๋ธ๋ค. ์ฌ๊ธฐ์ negative ์์ 0์ ํ๋ฅ ์ ๊ฐ์ง๊ณ positive ์์ 1์ ํ๋ฅ ์ ๊ฐ์ง๋ค. image-text contrastive loss๋ $\textbf{p}$์ $\textbf{y}$ ๊ฐ์ cross-entropy $H$๋ก ์ ์ํ์๋ค.
Masked Language Modeling์ masked word๋ฅผ ์์ธกํ๊ธฐ ์ํด ์ด๋ฏธ์ง์ ํ
์คํธ๋ฅผ ๋ชจ๋ ํ์ฉํ๋ค. ๋
ผ๋ฌธ์์๋ ์
๋ ฅ ํ ํฐ์ ๋๋ค ํ๊ฒ ์คํ์
ํ ํฐ [MASK]๋ก ๋์ฒดํ์๋ค. $\hat{T}$์ masked text๋ฅผ ๋ํ๋ด๊ณ , $\textbf{p}^{msk}(I, \hat{T})$์ masekd token์ ๋ํ ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ์ ๋ํ๋ธ๋ค. MLM์ cross-entropy loss๋ฅผ ์ต์ํํ์๋ค:
์ฌ๊ธฐ์ $\textbf{y}^{msk}$๋ one-hot vocabulary ๋ถํฌ์ธ๋ฐ ์ฌ๊ธฐ์ ground-truth ํ ํฐ์ 1์ ํ๋ฅ ์ ๊ฐ์ง๋ค.
Image-Text Matching์ ์ด๋ฏธ์ง์ ํ
์คํธ ์์ด positive(์ผ์นํจ)์ธ์ง negative(์ผ์นํ์ง ์์)์ธ์ง ์์ธกํ๋ค. multi-modal encoder์ [CLS] ํ ํฐ ์ถ๋ ฅ ์๋ฒ ๋ฉ์ image-text ์์ ๊ณต๋ representation์ผ๋ก ์ฌ์ฉํ๊ณ fully-connected(FC) ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ ๋ค์ softmax๋ฅผ ์ถ๊ฐํ์ฌ 2 ํด๋์ค ํ๋ฅ $p_{itm}$์ ์์ธกํ๋ค. ITM loss๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ $\textbf{y}^{itm}$์ ground-truth ๋ผ๋ฒจ์ ๋ํ๋ด๋ 2์ฐจ์ one-hot ๋ฒกํฐ์ด๋ค.
์ด ๋ชจ๋ ๊ฒ์ ์ข
ํฉํ์ฌ ๋ง๋ ALBEF์ pre-training objective์ด๋ค.
3-3. Momentum Distillation
pre-training์ ์ฌ์ฉ๋๋ image-text ์์ ๋๋ถ๋ถ์ ์น์์ ์์ง๋๋๋ฐ ์ด๋ค์ noisy ํ ๊ฒฝํฅ์ด ์๋ค. ์ด ๋ฐ์ดํฐ๋ค์์ positive ์์ ๋๋ถ๋ถ ์ฝํ๊ฒ ์ฐ๊ด๋์ด ์๋ค: ํ
์คํธ๋ ์ด๋ฏธ์ง์ ์ฐ๊ด๋์ด ์์ง ์๊ธฐ๋ ํ๊ฑฐ๋ ์ด๋ฏธ์ง๋ ํ
์คํธ์์ ์ค๋ช
๋์ง ์์ ๊ฐ์ฒด๋ฅผ ํฌํจํ๊ณ ์๊ธฐ๋ ํ๋ค. ITC ํ์ต์ ๋ํด ์ด๋ฏธ์ง์ ๋ํ negative ํ
์คํธ๋ ์ด๋ฏธ์ง์ ๋ด์ฉ๊ณผ ์ผ์นํ๊ธฐ๋ ํ๋ค. MLM์ ๋ํด ๊ธฐ์กด์ ๋ผ๋ฒจ๊ณผ๋ ๋ค๋ฅด์ง๋ง ์ด๋ฏธ์ง์ ๋ํด ๋น์ทํ๊ฒ ์ ์ค๋ช
ํ๋ word๋ฅผ ํฌํจํ๊ธฐ๋ ํ๋ค. ํ์ง๋ง ITC์ MLM์ ๋ํ one-hot ๋ผ๋ฒจ์ ์ ํ๋๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ๋ชจ๋ negative ์์ธก์ ๋ฌด์ํด ๋ฒ๋ฆฐ๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋
ผ๋ฌธ์์๋ momentum model๋ก๋ถํฐ ์์ฑ๋๋ paseudo target์ผ๋ก๋ถํฐ ํ์ต๋๋ค. momentum model์ ๊ณ์์ ์ผ๋ก ๋ฐ์ ํ๋ ์ ์์ผ๋ก unimodal๊ณผ multi-modal encoder์ exponential-moving-average๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ํ์ต ์ค์๋ base model์ ์์ธก์ด momentum model์ ๊ฒ ์ค ํ๋๋ฅผ ์์ธกํ๋๋ก ํ์ต์ํจ๋ค. ํนํ ITC์ ๋ํด์ ๋
ผ๋ฌธ์์๋ ์ฒ์์ momentum model encoder๋ก๋ถํฐ ๋์จ feature๋ฅผ $s’(I, T)=g_{v}^{‘}(\textbf{v}_{cls}^{‘})^{\top}g_{w}^{‘}(\textbf{w}_{cls}^{‘})$๊ณผ $s’(T, I)=g_{w}^{‘}(\textbf{w}_{cls})^{\top}g_{v}^{‘}(\textbf{v}_{cls}^{‘})$๋ก ์ฌ์ฉํ์ฌ image-text ์ ์ฌ๋๋ฅผ ์ธก์ ํ์๋ค. ๊ทธ๋ค์์ ์์ ์ฒซ ๋ฒ์งธ ์์์์ $s$๋ฅผ $s’$์ผ๋ก ๋์ฒดํจ์ผ๋ก์จ soft pseudo target $\textbf{q}^{i2t}$์ $\textbf{q}^{t2i}$๋ฅผ ๊ณ์ฐํ์๋ค. ITC_MoD loss๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ด์ ์ ์ฌํ๊ฒ MLM์ ๋ํด $\textbf{q}^{msk}(I, \hat{T})$๋ masked token์ ๋ํ momentum model์ ์์ธก ํ๋ฅ ์ ๋ํ๋ธ๋ค. ๊ทธ๋์ $MLM_{MoD}$ loss๋ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆผ 2์์๋ pseudo target์ผ๋ก๋ถํฐ top-5 ํ๋ณด์์ ์์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด๊ฒ์ ์ด๋ฏธ์ง์ ๋ํด ์ฐ๊ด๋ word/text๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์บก์ฒํ๋ค.
๋ ผ๋ฌธ์์๋ ๋ํ downstream task์ MoD๋ฅผ ์ ์ฉํ์๋ค. ๊ฐ task์ ๋ํ ์ต์ข loss๋ model์ ์์ธก๊ณผ pseudo target ๊ฐ์ ๊ธฐ์กด task loss์ KL-divergence์ ๊ฐ์ค์น ๋ ์กฐํฉ์ด๋ค. ๊ฐ๋จํจ์ ์ํด, ๋ ผ๋ฌธ์์๋ ๋ชจ๋ pre-training & downstream task๋ฅผ ์ํด ๊ฐ์ค์น $\alpha = 0.4$๋ก ์ค์ ํ์๋ค.
3. A Mutual Information Maximization Persepctive
์ด ์น์ ์์๋ ALBEF์ ๋์์ด ๋๋ ๋ณด๊ธฐ๋ฅผ ์ ๊ณตํ๊ณ , ์ด๊ฒ์ด image-text ์์ ์๋ก ๋ค๋ฅธ '์์ ' ๊ฐ์ mutual information(MI)์ ๋ํ lower bound๋ฅผ ์ต๋ํ์์ผ ์คฌ๋ค. ITC, MLM, MoD๋ ๋ณด๊ธฐ๋ฅผ ์์ฑํ๊ธฐ ์ํ ์๋ก ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ํด์๋ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ ๋๋ค ํ ๋ณ์ $a$์ $b$๋ฅผ ๋ฐ์ดํฐ์ ์๋ก ๋ค๋ฅธ ๋ ๋ณด๊ธฐ๋ก ์ ์ํ์๋ค. self-supervised learning์์, $a$์ $b$๋ ๋๊ฐ์ ์ด๋ฏธ์ง์ ๋ augmentation์ด๋ค. vision-language representation learning์์๋ semantic meaning์ ์บก์ฒํ๋ image-text ์์ ์๋ก ๋ค๋ฅธ ๋ณ์ $a$์ $b$๋ก ๊ณ ๋ คํ์๋ค. ์ด๋ $a$์ $b$ ๊ฐ์ MI๋ฅผ ์ต๋ํ์ํด์ผ๋ก์จ ๋ฌ์ฑ๋ ์ ์๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ InfoNCE loss๋ฅผ ์ต์ํ์ํด์ผ๋ก์จ $MI(a, b)$์ ๋ํ lower bound๋ฅผ ์ต์ํ์์ผฐ๋ค. InfoNCE loss๋ ๋ ๋ฐ์ดํฐ ์ํ์ ๋น๊ตํ์ฌ, ์ํ ๊ฐ์ ์ ์ฌ๋๋ฅผ ์ธก์ ํ๋ ๋ฐ์ ํ์ฉ๋๋ค.
์ฌ๊ธฐ์ $s(a, b)$๋ scoring function์ด๊ณ , $\hat{B}$๋ ํ๋ฅ ๋ถํฌ๋ก๋ถํฐ ๋ฝ์์ง positive sample $b$์ $|\hat{B}|-1$ negative sample๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
๋ ผ๋ฌธ์ ITC loss๋ one-hot ๋ผ๋ฒจ์ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ์์ฑ๋ ์ ์๋ค:
$\mathfrak{L}_{itc}$๋ฅผ ์ต์ํํ๋ ๊ฒ์ InfoNCE์ ๋์นญ ๋ฒ์ ์ ์ต๋ํ์ํค๋ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์ ์๋ค. ๊ทธ๋์ ITC๋ 2๊ฐ์ modality($I$ & $T$)๋ฅผ image-text ์์ 2๊ฐ์ ๋ณด๊ธฐ๋ก ๊ณ ๋ คํ๊ณ , positive ์์ ๋ํ ์ด๋ฏธ์ง ๋ณด๊ธฐ์ ํ ์คํธ ๋ณด๊ธฐ ๊ฐ์ MI๋ฅผ ์ต๋ํํ๋ unimodal encoder๋ฅผ ํ์ต์ํจ๋ค.
๊ทธ๋ฆฌ๊ณ MLM์ masked word token๊ณผ ์ด๊ฒ์ masked context ๊ฐ์ MI๋ฅผ ์ต๋ํํ๋ ๊ฒ์ผ๋ก ํด์๋ ์ ์๋ค. ํนํ MLM loss๋ฅผ one-hot ๋ผ๋ฒจ์ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ์ฌ์์ฑํ ์ ์๋ค:
์ฌ๊ธฐ์ $\psi (y) : \mathfrak{V} \to \mathbb{R}^{d}$๋ word token $y$๋ฅผ ๋ฒกํฐ๋ก ๋งคํํ๋ multi-modal encoder์ ์ถ๋ ฅ ๋ ์ด์ด์์์ lookup function์ด๊ณ , $\mathfrak{V}$๋ ์ ์ฒด vocabulary ์ธํธ์ด๊ณ , $f(I, \hat{T})$๋ masked context์ ํด๋นํ๋ multi-modal encoder์ ์ต์ข hidden state๋ฅผ ๋ฐํํ๋ ํจ์์ด๋ค. ๊ทธ๋์ MLM์ image-text ์์ ๋ ๊ฐ์ง ๋ณด๊ธฐ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ์ฃผํ๋ค:
- ๋๋ค ํ๊ฒ ์ ํ๋ word token
- image + ํด๋น ๋จ์ด๊ฐ ๋ง์คํน๋ text
ITC์ MLM์ image-text ์์ผ๋ก๋ถํฐ modality ๋ถ๋ฆฌ ๋๋ word masking์ ํตํด ์ป์ ๋ถ๋ถ์ ์ ๋ณด๋ฅผ ์ทจํจ์ผ๋ก์จ ๋ณด๊ธฐ๋ฅผ ์์ฑํ๋ค. ๋ ผ๋ฌธ์ momentum distillation์ ์ ์ฒด ์ ์ ๋ถํฌ๋ก๋ถํฐ ๋์์ด ๋๋ ๋ณด๊ธฐ๋ฅผ ์์ฑํ๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋ ์ ์๋ค. ์์ ITC MoD ์์์์ $KL(\textbf{p}^{i2t}(I), \textbf{q}^{i2t}(I))$์ ์ต์ํํ๋ ๊ฒ์ ๋ค์์ objective๋ฅผ ์ต์ํ์ํค๋ ๊ฒ๊ณผ ๋์ผํ๋ค.
์ด objective๋ ์ด๋ฏธ์ง $I$๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฌํ semantic meaning์ ๊ณต์ ํ๋ ํ ์คํธ์ ๋ํ $MI(I, T_{m})$์ ์ต๋ํํ๋๋ฐ, ์๋ํ๋ฉด ํ ์คํธ๋ ๋ ํฐ $q_{m}^{i2t}(I)$๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค. ์ด์ ์ ์ฌํ๊ฒ, $ITC_{MoD}$๋ $T$์ ์ ์ฌํ ์ด๋ฏธ์ง์ ๋ํ $MI(I_{m}, T)$๋ฅผ ์ต๋ํ์ํจ๋ค. ๋ ผ๋ฌธ์์๋ masked word $y^{msk}$์ ๋ํ ๋์์ด ๋๋ ๋ณด๊ธฐ $y' \in \mathfrak{V}$๋ฅผ ์์ฑํ๋ $MLM_{MoD}$์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํ ๋๊ฐ์ method๋ฅผ ๋ฐ๋๊ณ , $y'$๊ณผ $(I, \hat{T})$ ๊ฐ์ MI๋ฅผ ์ต๋ํํ์๋ค. ๊ทธ๋์ momentum distillation์ ๊ธฐ์กด์ ๋ณด๊ธฐ์ augmentation์ ์ํํ๋ ๊ฒ์ฒ๋ผ ๊ฐ์ฃผ๋ ์ ์๋ค. momentum model์ ๊ธฐ์กด์ image-text ์์๋ ์๋ ๋ณด๊ธฐ์ ๋ค์ํ ์ธํธ๋ฅผ ์์ฑํ ์ ์๊ณ , base model์ด view-invariant semantic ์ ๋ณด๋ฅผ ์บก์ฒํ๋ representation์ ํ์ตํ ์ ์๊ฒ ๋ง๋ค์๋ค.
4. Downstream V+L Tasks
๋ ผ๋ฌธ์์๋ pre-trained model์ 5๊ฐ์ downstream V+L task์ ์ ์ฉํ์๋ค.
- Image-Text Retrieval
- Visual Entailment
- Visual Question Answering(VQA)
- Natural Language for Visual Reasoning(NLVR2)
- Visual Grounding
5. Experiments
5-1. Evaluation on the Proposed Methods
๋ ผ๋ฌธ์์๋ ์ฒ์์ ์ ์๋ method์ ํจ๊ณผ๋ฅผ ํ๊ฐํ์๋ค. ํ 1์ method์ ์๋ก ๋ค๋ฅธ ๋ณํ์ ์ฌ์ฉํ์ฌ downstream task์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. baseline pre-training task(MLM+ITC)์ ๋น๊ตํด์, ITC๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ๋ชจ๋ task์ ๋ํด์ pre-trained model์ ์ฑ๋ฅ์ ํฅ์์์ผ์ค๋ค.
์ ์๋ hard negative mining์ ITM์ ๋์ฑ ์ ๋ณด์ ์ธ ํ์ต ์ํ์ ์ฐพ์์ผ๋ก์จ ํฅ์์ํจ๋ค. ๊ฒ๋ค๊ฐ momentum distillation์ ์ถ๊ฐํ๋ ๊ฒ์ ITC(4ํ), MLM(5ํ), ๋ชจ๋ downstream tasks(6ํ)์ ๋ํ ํ์ต์ ํฅ์์ํจ๋ค. ๋ง์ง๋ง ํ์์๋ ALBEF๊ฐ pre-training ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋์ฑ noise๊ฐ ์์ธ ์น ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
6. Conclusion
์ด ๋ ผ๋ฌธ์์๋ vision-language representation ํ์ต์ ์ํ ์๋ก์ด ํ๋ ์์ํฌ์ธ ALBEF๋ฅผ ์ ์ํ์๋ค. ALBEF๋ ์ฒ์์ nuimodal representation๊ณผ text representation์ ์ ๋ ฌํ๊ณ ๊ทธ๋ค์์ multimodal encoder๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ค์ ์ตํฉํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ก ์ ๋ฐ ์คํ์ ์ผ๋ก ์ ์๋ image-text contrastive learning๊ณผ momentum distillation์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์๋ค. ๊ธฐ์กด์ method๋ค๊ณผ ๋น๊ตํ์ ๋, ALBEF๋ ์ฌ๋ฌ downstream V+L tasks์์ ๋ ๋์ ์ฑ๋ฅ๊ณผ ๋ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2107.07651