The overview of this paper
image-text ์์์ cross-modal representation ํ์ต์ ๋๊ท๋ชจ pre-training method๋ vision-language task์์ ์ ๋ช ํด์ก๋ค. ํ์ง๋ง ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ ๊ทธ์ image region feature์ text feature์ ์ฐ๊ฒฐํ๊ธฐ๋ง ํ ๋ฟ, ๋ค๋ฅธ ์กฐ์น๋ฅผ ์ทจํ์ง ์์๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง์์ ๊ฐ์ง๋ object tag๋ฅผ anchor point๋ก ์ฌ์ฉํ๋ ์๋ก์ด ํ์ต ๋ฐฉ๋ฒ์ธ Oscar์ ์๊ฐํ์๋ค. ์ด๋ก ์ธํด ์ ๋ ฌ์ ํ์ต์ ๋์ฑ ์ฝ๊ฒ ํด ์ฃผ์๋ค. ์ด method๋ object detector๋ก๋ถํฐ ๊ฐ์ฅ ์ค์ํ object๊ฐ ๊ฐ์ง๋ ํ ๊ณ , paired text์์ ์ด object ์ข ์ข ์ธ๊ธ๋ ๊ฒ์ด๋ผ๋ ์๊ฐ์ผ๋ก๋ถํฐ ๋ง๋ค์ด์ก๋ค.
Table of Contents
1. Introduction
2. Background
3. Oscar Pre-training
4. Experimental Results & Analysis
4-1. Performance comparison with SoTA
4-2. Qualitative Studies
4-3. Abaltion Analysis
1. Introduction
์ต๊ทผ์ vision-language pre-training(VLP)์ ๊ดํ ์ฐ๊ตฌ๋ค์ ๋ฐฉ๋ํ ์์ image-text ์์ผ๋ก๋ถํฐ generic representaion์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๊ณ , task-specific ๋ฐ์ดํฐ์ ์์ VLP model์ fine-tuning ํ์ฌ SoTA๋ ๋ฌ์ฑํ์๋ค. ์ด๋ฌํ VLP model๋ค์ multi-layer Transformer์ ๊ธฐ๋ฐ์ ๋๊ณ ์๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ pre-train ํ๊ธฐ ์ํด, ๊ธฐ์กด์ method๋ค์ image region feature์ text feature์ ์ฐ๊ฒฐ์ ์ ๋ ฅ์ผ๋ก ํ๊ณ image region๊ณผ text ๊ฐ์ semantic ์ ๋ ฌ์ ํ์ตํ๊ธฐ ์ํด self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์๋ค. ํ์ง๋ง image region๊ณผ text ๊ฐ์ ๋ถ๋ช ํ ์ ๋ ฌ ์ ๋ณด์ ๋ถ์กฑ์ ์ ๋ ฌ ๋ชจ๋ธ๋ง์ ์ฝํ supervised learning task๋ก ๋ง๋ค์๋ค. ๊ฒ๋ค๊ฐ visual region์ over-sample ๋ผ์ ์ก์๊ณผ ๋ชจํธ์ฑ์ด ์์ฌ ์๋๋ฐ, ์ด๋ task๋ฅผ ๋์ฑ ์ด๋ ต๊ฒ ๋ง๋ ๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง์์ ๊ฐ์ง๋ object tag๋ฅผ anchor point๋ก ํ์ฉํด์ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ semantic ์ ๋ ฌ์ ํ์ต์ ์ฝ๊ฒ ํจ์ผ๋ก์จ cross-modal representation์ ํ์ต์ ์๋นํ ํฅ์์์ผฐ๋ค. ์ด๋ ๊ฒ ํ์ฌ ์๋ก์ด VLP method์ธ OSCAR์ ์๊ฐํ์๋ค. OSCAR์์ training example์ 3๊ฐ๋ก ๊ตฌ์ฑํ์๋๋ฐ, ๊ฐ๊ฐ์ word sequence, object tag ์ธํธ, image region feature ์ธํธ์ด๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ OSCAR์ ์ ๋ฐ์ ์ธ ์ธํ ์ ๋ํด์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ด ๋ ผ๋ฌธ์ ์ฃผ๋ contribution์ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ๋๋ค:
- V+L(Vision+Language) ์ดํด์ ์์ฑ task๋ฅผ ์ํ generic image-text representation์ ํ์ตํ๊ธฐ ์ํ ๊ฐ๋ ฅํ VLP method์ธ OSCAR์ ์๊ฐํ์๋ค.
- OSCAR ๋ชจ๋ธ์ multiple V+L ๋ฒค์น๋งํฌ์์ ์๋ก์ด SoTA๋ฅผ ๋ฌ์ฑํ์๊ณ , ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ ๋นํด ์๋นํ ๋ง์ง์ผ๋ก ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- cross-modal representation ํ์ต๊ณผ downstream task๋ฅผ ์ํด object tag๋ฅผ anchor point๋ก ์ฌ์ฉํ๋ ๊ฒ์ ํจ๊ณผ๋ฅผ ์์๋ณด๊ธฐ ์ํด ๊ด๋ฒ์ํ ์คํ๊ณผ ๋ถ์์ ์ ๊ณตํ์๋ค.
2. Background
๋ค์ํ V+L task๋ฅผ ์ํ ํ์ต ๋ฐ์ดํฐ๋ ๊ทธ๋ฆผ 2์ a์ฒ๋ผ image-text ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ฐ์ดํฐ์ ์ ์ฌ์ด์ฆ๋ฅผ $N$์ผ๋ก ์ ์ํด์ $D = \left\{ (\mathbf{I}_{i}, \mathbf{w}_{i})\right\}_{i=1}^{N}$๋ฅผ ์ด๋ฏธ์ง $\mathbf{I}$์ ํ ์คํธ ์ํ์ค $\mathbf{w}$์ ์ฌ์ฉํ์ฌ ์ ์ํ์๋ค. OSCAR์ pre-training์ ๋ชฉํ๋ self-supervised ๋งค๋์์ image-text ์์ cross-modal representation์ ํ์ตํ๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ ๋ค์ํ downstream task์ fine-tuning์ ํตํด ์ ์ฉ๋ ์ ์๋ค.
VLP๋ ๊ฐ modality์ singular ์๋ฒ ๋ฉ์ ๊ธฐ๋ฐํด์ cross-modal contextualized representation์ ํ์ตํ๊ธฐ ์ํด ๋ณดํต multi-layer self-attention Transformer์ ์ฌ์ฉํ๋ค. ๋ฐ๋ผ์ VLP์ ์ฑ๊ณต์ ๊ทผ๋ณธ์ ์ผ๋ก ์ ๋ ฅ singular embedding์ ํ๋ฆฌํฐ์ ์์กดํ๋ค. ํ์กดํ๋ VLP method๋ค์ ์ด๋ฏธ์ง์ visual region feature $\textbf{v} = \left\{ v_1, ..., v_K\right\}$์ word embedding $\textbf{w} = \left\{ w_1, ..., w_T\right\}$์ ์์ ์ ๋ ฅ์ผ๋ก ํ๊ณ , image-text ์ ๋ ฌ์ ํ์ตํ๊ณ cross-modal contextual representation์ ์์ฑํ๊ธฐ ์ํด self-attention ๋ฉ์ปค๋์ฆ์ ์์กดํ๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๊ธฐ์กด์ VLP method๋ค์ ๋ค์์ 2๊ฐ์ง ๋ฌธ์ ์ ์ ๊ฒช๊ณ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ด ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด anchor point๋ฅผ ํ์ฉํ๋ ์๋ก์ด VLP method๋ฅผ ์ ์ํ์๋ค.
- ๋ชจํธ์ฑ. region feature๊ฐ ์ ๊ตฌ๋ถ๋์ง ์๋๋ก ์ถ์ถ๋๋ ๋ฌธ์ . ๊ทธ๋ฆผ 2์ a๋ฅผ ๋ณด๋ฉด dog๊ณผ couch์ region feature๊ฐ ๋ถ๋ถ๋ช ํ๊ฒ ์ถ์ถ๋์ ์ค๋ฒ๋ฉ์ด ์๋ค.
- grounding ๋ถ์กฑ. ์ด๋ฏธ์ง์์ region ํน์ obejct ๊ฐ์, ๊ทธ๋ฆฌ๊ณ ํ ์คํธ์์ ๋จ์ด ๋๋ ๊ตฌ๋ฌธ ๊ฐ์ ๋ช ํํ๊ฒ ๋ผ๋ฒจ๋ง๋ ์ ๋ ฌ์ด ์๊ธฐ ๋๋ฌธ์ VLP๋ weakly-supervised ํ์ต์ด๋ค.
3. Oscar Pre-training
์ฌ๋์ ์ฑ๋์ ํตํด ์ธ์์ ์ธ์ํ๋ค. ์ด ๊ณผ์ ์์ ๋ง์ ์ก์๊ณผ ๋ชจํธ์ฑ์ ํฌํจํ๊ธฐ๋ ํด๋ ์ฌ๋ฌ ์ฑ๋์ ๊ณต์ ํด์ ์ธ์์ ์ธ์ํ ์ ์๋ค. ์ด๋ฌํ ๋๊ธฐ์ ํจ๊ป, ๋ ผ๋ฌธ์์๋ semantic ๋ ๋ฒจ์์ channel-invariant ์์ธ์ ์บก์ฒํ๋ representation์ ํ์ตํ๊ธฐ ์ํ ์๋ก์ด VLP method์ธ Oscar์ ์ ์ํ์๋ค. Oscar๋ ์ ๋ ฅ image-text ์์ด ํํ๋๋ ๋ฐฉ์๊ณผ ๊ทธ๋ฆผ 3์ ์ค๋ช ๋ ๋๋ก pre-training ๋ชฉํ๊ฐ ๊ธฐ์กด VLP์ ๋ค๋ฅด๋ค.
Input
Oscar๋ ๊ฐ๊ฐ์ ์ ๋ ฅ image-text ์์ Word-Tag-Image ์ ($\mathbf{w}, \mathbf{q}, \mathbf{v}$)์ผ๋ก ํํํ์๋ค. ์ฌ๊ธฐ์ $\mathbf{w}$๋ ํ ์คํธ์ ์๋ ์๋ฒ ๋ฉ์ ์ํ์ค์ด๊ณ , $\mathbf{q}$๋ ์ด๋ฏธ์ง๋ก๋ถํฐ ํ์ง๋ object tag์ ์๋ ์๋ฒ ๋ฉ ์ํ์ค์ด๊ณ , $\mathbf{v}$๋ ์ด๋ฏธ์ง์ region vector ์ธํธ์ด๋ค.
๊ธฐ์กด์ VLP method๋ค๊ณผ ๋ฌ๋ฆฌ Oscar๋ ์๋ก์ด $\mathbf{q}$๋ฅผ ์๊ฐํ๊ณ , image-text ์ ๋ ฌ์ ํ์ต์ ์ฝ๊ฒ ํ๊ธฐ ์ํด anchor point๋ก ํ์ฉํ์๋ค. ์ด๋ ํ์ต ๋ฐ์ดํฐ์์ ์ด๋ฏธ์ง์ ์ค์ํ object๊ฐ object tag์ ๋์ผํ ๋จ์ด ๋๋ ๋ค๋ฅด์ง๋ง ์๋ฏธ์ ์ ์ฌํ๊ฑฐ๋ ๊ด๋ จ๋ ๋จ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ์ ํ ์คํธ์๋ ์ข ์ข ํ์๋๋ค๋ ๊ด์ฐฐ์ ์ํด ์์๋์๋ค. ํ ์คํธ์์ $\mathbf{q}$์ $\mathbf{w}$ ๊ฐ์ ์ ๋ ฌ์ Oscar์์ VLP๋ฅผ ์ํ ์ด๊ธฐํ๋ก ์ฌ์ฉ๋๋ pre-trained BERT ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋น๊ต์ ์ฝ๊ฒ ์๋ณ๋๊ธฐ ๋๋ฌธ์ object tag๊ฐ ๊ฐ์ง๋๋ ์ด๋ฏธ์ง ์์ญ์ด ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ํ ์คํธ์์ ์๋ฏธ๋ก ์ ์ผ๋ก ๊ด๋ จ๋ ๋จ์ด๋ก ์ฟผ๋ฆฌ ํ ๋ ๋ค๋ฅธ region๋ณด๋ค ๋ ๋์ attention ๊ฐ์ค์น๋ฅผ ๊ฐ๋๋ค. ์ด๋ฌํ ์ ๋ ฌ ํ๋ก์ธ์ค๊ฐ ๊ทธ๋ฆผ 2์ b์ ์ค๋ช ๋์ด ์๋ค. ์ด๋ฌํ ํ๋ก์ธ์ค๋ vision space์์ ๋ชจํธํ๊ฒ ํํ๋์ด ์๋ image object๋ฅผ ground ํ๊ธฐ ์ํ ํ์ต์ผ๋ก ํด์๋ ์ ์๋ค. vision sapce์์ ๋ชจํธํ๊ฒ ํํ๋ image object๋ ๊ทธ๋ฆผ 2์ a์ ๋ํ๋ ์๊ณ , language space์์ ๋ ํนํ ๊ฐ์ฒด๋ ๊ทธ๋ฆผ 2์ c์ ๋ํ๋ ์๋ค.
ํนํ, $\mathbf{v}$์ $\mathbf{q}$๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฑ๋๋ค. $K$ ๊ฐ์ object region์ ๊ฐ์ง๋ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด, ๊ฐ region์ visual semantic์ $(v', z)$๋ก ์ถ์ถํ๋ค. ์ด๋ $v'$์ region feature์ด๊ณ , $z$๋ region position์ด๋ค. ์ด๋ ๊ฒ ์ป์ด์ง $v'$๊ณผ $z$๋ฅผ ํฉ์ณ์ position-sensitive region feature vector๋ฅผ ๋ง๋ค์๊ณ , ์ด ๋ฒกํฐ์ linear projection์ ๊ฐํด์ word embedding๊ณผ ๋๊ฐ์ ๋ฒกํฐ ์ฐจ์์ ๋ง๋ ๋ค.
Pre-training Objective
Oscar์ ์ ๋ ฅ์ ๋ ๊ฐ์ง ๊ด์ ์์ ๋ณผ ์ ์๋ค.
์ฌ๊ธฐ์ $\mathbf{x}$๋ ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ representation์ ๊ตฌ๋ถํ๊ธฐ ์ํ modality ๊ด์ ์ด๋ค. $\mathbf{x}'$์ ์๋ก ๋ค๋ฅธ ๋ ๊ฐ์ semantiv space๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํ dictionary view์ด๋ค. ๋ ๊ฐ์ view๋ ์๋ก์ด pre-training ๋ชฉํ๋ฅผ ๋์์ธํ ์ ์๋๋ก ํด์ฃผ์๋ค.
Dictionary View: Masked Token Loss. object tag์ word token์ ๋๊ฐ์ linguistic semantic space๋ฅผ ๊ณต์ ํ๋ ๋ฐ๋ฉด, image region feature๋ visual semantic space์ ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ณ๊ฐ์ ํ ํฐ ์ํ์ค๋ฅผ $\mathbf{h} \doteq [\mathbf{w}, \mathbf{q}]$์ผ๋ก ์ ์ํ๊ณ , pre-training์ ์ํด Masked Token Loss(MTL)์ ์ ์ฉํ์๋ค. $\mathbf{h}_{\setminus i}$์ ๋ชจ๋ ์ด๋ฏธ์ง feature $v$๋ฅผ ์ฌ์ฉํด์ negative log-likelihood๋ฅผ ์ต์ํํจ์ผ๋ก์จ masked token์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ค.
Modality View: Contrastive Loss. ์ธ ๊ฐ์ ์ ๋ ฅ์ ๋ํด $\mathbf{h}' \doteq [\mathbf{q}, \mathbf{v}]$๋ ์ด๋ฏธ์ง modality๋ก ๊ทธ๋ฃน ํ์๊ณ , $\mathbf{w}$๋ language modality๋ก ํํํ์๋ค. $\mathbf{q}$๋ฅผ 50% ํ๋ฅ ๋ก ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ๋๋ค ํ๊ฒ ์ํ๋ง๋ tag sequence๋ฅผ ๋์ฒดํจ์ผ๋ก์จ '์ค์ผ๋' ์ด๋ฏธ์ง representation์ ์ํ๋งํ์๋ค. ํ ๋ง๋๋ก $(\mathbf{h}', \mathbf{w})$ ์์ด original ์ด๋ฏธ์ง representation์ ํฌํจํ๋์ง polluted๋ฅผ ํฌํจํ๋์ง ์์ธกํ๋ ๊ฒ์ด๋ค. contrastive loss๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
cross-modal pre-training ์ค์, ๋ ผ๋ฌธ์์๋ BERT์ ์๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์กฐ์ ํ๊ธฐ ์ํด object tag๋ฅผ ์ด๋ฏธ์ง์ ๋์ฉ๋ฌผ์ฒ๋ผ ํ์ฉํ์๋ค. ์ฌ๊ธฐ์ ํ ์คํธ๋ ์์ ์ด๋ฃฌ ์ด๋ฏธ์ง์ ์ ์ฌํ๊ณ , polluted์๋ ์ ์ฌํ์ง ์๋ค. ์ด๋ฅผ ํตํด ์ป์ Oscar์ pre-training ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ๋ค.
Discussion. ๋ค๋ฅธ ์์ค ํจ์๊ฐ pre-training ๋ชฉํ๋ก ์ฌ์ฉ๋ ์๋ ์์์ผ๋ ๋ค์์ ์ด์ ๋ก ์ธํด ์์ ๋ ๊ฐ์ loss๋ฅผ ์ฌ์ฉํ์๋ค.
- ๊ฐ๊ฐ์ loss๋ ๊ฐ๊ฐ์ ๊ด์ ์ผ๋ก๋ถํฐ representative learning signal์ ์ ๊ณตํด์ค. ์ด๋ dictionary & modality view์ ํจ๊ณผ์ ๋ํด ์ฐ๊ตฌํ๊ธฐ ์ํจ.
- ์ ๋ฐ์ ์ธ loss๋ VLP method์ ์กด์ฌํ๋ ๊ฒ๋ณด๋ค ๊ฐ๋จํจ. ์ด๋ ๋ ผ๋ฌธ์ ์คํ์์ ์๋นํ ์ฑ๋ฅ์ ์ฐ์ถํ๋ค.
์ด๋ ๊ฒ ํด์ ๋ ผ๋ฌธ์์๋ pre-trained model์ ์ด 7๊ฐ์ downstream V+L task์ ์ ์ฉํ์๋ค. ์ฌ๊ธฐ์๋ 5๊ฐ์ understanding task์ 2๊ฐ์ generation task๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
4. Experimental Results & Analysis
4-1. Performance Comparison with SoTA
ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ ์ค๋ช ํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ Oscar๋ฅผ 3๊ฐ์ ์ ํ์ SoTA์ ๋น๊ตํ์๋ค.
- SoTA_S: Transformer ์ด์ ์ small models
- SoTA_B: BERT base์ ํฌ๊ธฐ๊ฐ ์ ์ฌํ VLP models
- SoTA_L: BERT large์ ํฌ๊ธฐ๊ฐ ์ ์ฌํ VLP models
ํ 1์ ๋ชจ๋ task์ ๋ํ ์ ๋ฐ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๊ณ ์๋ค. ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ ํ์์, ํ๋์์ task์ ๋ํ ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ด๊ณ , ํ์๋ฐฐ๊ฒฝ์ Oscar์ ์ํด ๋์จ ๊ฒฐ๊ณผ๋ฅผ ์๋ฏธํ๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด Oscar๋ ๋๋ถ๋ถ์ task์์ ์ด์ ์ large model๋ณด๋ค ํฐ ๋ง์ง์ ๊ฐ์ง๊ณ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ Oscar๊ฐ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ๋งํ๋ค. Oscar๋ object tag๋ฅผ anchor point๋ก ์ฌ์ฉํจ์ผ๋ก์จ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ semantic ์ ๋ ฌ์ ํ์ต์ ์ฝ๊ฒ ๋ง๋ค์ด ์ค๋ค.
ํ 2์์๋ ๊ฐ๊ฐ์ task์ ๋ํด ๋ํ ์ผํ ๋น๊ต๋ฅผ ๊ธฐ๋กํ์๋ค.
- VLP method๊ฐ ์ด์ small model๋ณด๋ค ์ฐ์ธํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. Oscar๋ 7๊ฐ์ task์์ ๋ชจ๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ 6๊ฐ์ task์์ SoTA๋ฅผ ๋ฌ์ฑํ์๋ค.
- ๋ชจ๋ธ์ด single task fine-tuning์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค๋ ์ ์ ๊ฐ์ํ ๋ ๊ฒฐ๊ณผ๋ ์ ์๋ pre-training์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
- Oscar๋ ์ดํด ๋ฐ ์์ฑ task์์ ๋ชจ๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. SCST๋ฅผ ํ์ฉํด fine-tuning ํ ๊ฒฐ๊ณผ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- NoCaps์์, BERT๋ก ์ด๊ธฐํํ๊ณ COCO captioning ๋ฐ์ดํฐ์ ๊ณผ Constrained Beam Search(CBS)๋ฅผ ์ฌ์ฉํด์ ์ด์ ์ SoTA๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
4-2. Qualitative Studies
๋ ผ๋ฌธ์์๋ COCO test set์ image-text ์์ ํ์ต๋ feature ๊ณต๊ฐ์ 2D map์ ์๊ฐํํ์๋ค. object tag๋ฅผ ์ฌ์ฉํด์ pre-train ํ ๋ชจ๋ธ๊ณผ, ์ฌ์ฉํ์ง ์๊ณ pre-train ํ ๋ชจ๋ธ์ ๋น๊ตํ์๋ค. ๊ทธ๋ฆผ 4์ ๊ฒฐ๊ณผ๋ ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ์ ์ฐพ์๋ด์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ฐ๊ฒฌ์ object tag์ ์ค์์ฑ์ ์ ์ฆํ์๋ค.
- Intra-class: object tag์ ๋์์ผ๋ก ๋๊ฐ์ object์ ๋ modality ๊ฐ์ ๊ฑฐ๋ฆฌ๋ ์๋นํ ์ค์๋ค.
- Inter-class: ๊ด๋ จ๋ semantic์ object class๋ tag๋ฅผ ์ถ๊ฐํ ํ์ ์ ์ ๊ฐ๊น์์ก๋ค.
๋ ผ๋ฌธ์์๋ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ์์ฑ๋ ์บก์ ์ ๊ทธ๋ฆผ 5์์ ๋น๊ตํ์๋ค. baseline method๋ object tag๋ฅผ ์ฌ์ฉํ์ง ์์ VLP์ด๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด Oscar๊ฐ baseline์ ๋นํด ์ด๋ฏธ์ง์ ๋์ฑ ๋ํ ์ผํ ์ค๋ช ์ ์์ฑํ๋ ๊ฑธ ์ ์ ์๋๋ฐ, ์ด๋ ์ ํํ๊ณ ๋ค์ํ object tag๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ค์ ์๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ anchor point์ด๊ณ , ํ ์คํธ ์์ฑ ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ด๋ํ๋ค.
4-3. Ablation Analysis
๋ ผ๋ฌธ์์๋ ๋ค ๊ฐ์ง ๋ํ์ ์ธ downstream task์ ๋ํ ์๋์ ์ค์์ฑ์ ๋ ์ ์ดํดํ๊ธฐ ์ํด pre-training ๋ฐ fine-tuning ๋ชจ๋์์ Oscar์ ์ฌ๋ฌ ์ค๊ณ ์ ํ์ ๋ํด ablation study๋ฅผ ์ํํ์๋ค.
The Effect of Object Tags object tag์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด ์ด 3๊ฐ์ ์ธํ ์์ ablation study๋ฅผ ์งํํ์๋ค: Baseline(No tag), Predicted Tags, Ground-truth Tags. ๊ทธ ๊ฒฐ๊ณผ object tag๋ฅผ ์ฌ์ฉํ์ฌ fine-tuning ํ learning curve๊ฐ VLP method์ ๋นํด ๋์ฑ ๋น ๋ฅด๊ณ ๋ ๋์ ๊ฒฐ๊ณผ๋ก ์๋ ดํ๋ ๊ฒ์ ์ ์ ์์๋ค.
Attention Interaction text & object tag & object region ๊ฐ์ ์ํธ ์์ฉ์ ํ์ ํ๊ธฐ ์ํด ablation study๋ฅผ ์งํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
- object tag๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ด์ต
- region feature๊ฐ object tag๋ณด๋ค ๋์ฑ ์ ๋ณด์ ์
- tag๋ฅผ feature๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๊ทธ์ ๊ทธ๋ฌ์. anchor point๋ก ์ฌ์ฉํด์ผ ํจ.
์ถ์ฒ
https://arxiv.org/abs/2004.06165