The overview of this paper
๋ ผ๋ฌธ์์๋ image์ language์ task-agnostic joint representation์ ํ์ตํ๊ธฐ ์ํ ๋ชจ๋ธ์ธ ViLBERT๋ฅผ ์ ์ํ์๋ค. ์ด ๋ชจ๋ธ์ NLP ๋ถ์ผ์์ ์ ๋ช ํ BERT architecture๋ฅผ multi-modal two-stream model๋ก ํ์ฅํ ๋ชจ๋ธ์ด๋ค. ์ด๋ก ์ธํด ViLBERT๋ co-attentional transformer๋ฅผ ํตํด ์ํธ์์ฉํ๋ ๊ฐ๋ณ์ stream์์ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์ ๋ ฅ์ ํจ๊ป ์ฒ๋ฆฌํ๋ค. ๋ ผ๋ฌธ์์๋ ViLBERT๋ฅผ ๊ธฐ์กด์ base architecture์ ์ฌ์ํ ์ถ๊ฐ๋ง์ ํ๊ณ ๋ ๊ฐ์ proxy task๋ฅผ ์๋์ผ๋ก ์์ง๋ ๊ฑฐ๋ํ Conceptual Captions ๋ฐ์ดํฐ์ ์ ํตํด pre-train ์ํค๊ณ , pre-trained model์ ์ฌ๋ฌ ๊ฐ์ vision-language task์ ์ ์ฉํด ๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๊ธฐ์กด์ task-specific model๊ณผ ๋น๊ตํด์ ์๋นํ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค$($์ฌ์ง์ด 4๊ฐ์ task์์ ๋ชจ๋ SoTA๋ฅผ ๋ฌ์ฑํ๋ค$)$. ๋ ผ๋ฌธ์ ์์ ์์๋ task training์ ์ผ๋ถ๋ก๋ง vision๊ณผ language ์ฌ์ด์ ํ์ต์์ ๋ฒ์ด๋ ์๊ฐ์ ๊ธฐ์ด๋ฅผ ์ฌ์ ํ๋ จ ๊ฐ๋ฅํ๊ณ ์๋ ๊ฐ๋ฅํ ๊ธฐ๋ฅ์ผ๋ก ์ทจ๊ธํ๋ ๋ฐฉํฅ์ผ๋ก์ ์ ํ์ ๋ํ๋๋ค.
Table of Contents
1. Introduction
2. Approach
2-1. Preliminaries: BERT
2-2. ViLBERT: Extending BERT to Jointly Represent Images and Text
3. Experimental Settings
3-1. Training ViLBERT
3-2. VIsion-and-Language Transfer Tasks
4. Results and Analysis
1. Introduction
๋ง์ ์์ํ๊ธฐ ์ ์ ์ ๋ช ํ ํ๋ก์ ํธ๋ถํฐ ํจ๊ป ์ดํด๋ณด์.
์์ ๊ธ์ ์ด๋ค ์ฐ๊ตฌ ํ๋ก์ ํธ์ ๋ชฉํ๋ฅผ ๊ฐ์ ธ์จ ๊ฒ์ธ๋ฐ, ํด์ํด๋ณด๋ฉด "์นด๋ฉ๋ผ๋ฅผ ์ปดํจํฐ์ ์ฐ๊ฒฐํ๊ณ ์ปดํจํฐ๊ฐ ๋ณธ ๊ฒ์ ๋ํด์ ์ค๋ช ํ ์ ์๋๋ก ๋ง๋ค์ด๋ผ."๋ผ๋ ๋ฌธ์ฅ์ด๋ค. ์ด ๋ด์ฉ, ์ด๋์ ๊ฐ ๋ค์ด๋ณธ ๊ฒ ๊ฐ์ง ์์๊ฐ? ๊ทธ๋ ๋ค, vision-and-language task์ด๋ค! ์ด๋ฌํ task๋ ์ด๋ฏธ์ง๊ฐ ์ ๋ ฅ๋๊ณ ๊ทธ ์ด๋ฏธ์ง์ ๋ํ ์์ฐ์ด๋ฅผ ์์ฑํจ์ผ๋ก์จ ์ปดํจํฐ๊ฐ ๊ทธ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๊ฒ ํ๋ ค๋ ๊ฒ์ด๋ค. ํ์ง๋ง ์์ฐ์ด์ ์๊ฐ์ ์๊ทน๋ค์ ์กฐ์ ํ๋ ค๋ ํ์์๋ ๋ถ๊ตฌํ๊ณ , vision-and-language task์ ๋ํ ๋ฐฉ์์ ์ด๋ฌํ ๋ฅ๋ ฅ์ ์ป๊ธฐ ์ํ ํตํฉ๋ ํ ๋๊ฐ ๋ถ์กฑํ๋ค. ์ด ๋์ ์ ์ง๋ฐฐ์ ์ธ ์ ๋ต์ ๋ถ๋ฆฌ๋ language model๊ณผ vision model์ ๋ค๋ฅธ large-scale์ task์ ๋ํด pre-train ์ํค๊ณ , ๊ทธ๋ค์์ task training์ฒ๋ผ ๊ธฐ์ด ๋ด์ฉ์ ํ์ต์ํค๋ ๊ฒ์ด๋ค. ์ด๋ฐ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ์ง์ ์ด๋ฃจ๋ visiolinguistic ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๊ฑฐ๋ ํธํฅ์ ์ผ ๋ ์ข ์ข ์ ๋๋ก ์ผ๋ฐํ์ํค์ง ๋ชปํ๋ ๊ทผ์์์ ์ธ ๋ด์ฉ์ ๋ด๋๋๋ค.
vision-and-language task์ ๋ํ pretrain-and-transfer ํ์ต ๋ฐฉ์์ computer vision๊ณผ NLP ๋ถ์ผ์์ ๋๋ฆฌ ์ฌ์ฉ๋์ด ์ฌ์ฉ ์ฉ์ด์ฑ๊ณผ ๊ฐ๋ ฅํ ํํ๋ ฅ์ผ๋ก ์ธํด ์ฌ์ค์ ํ์ค์ด ๋์๋ค. ์ด๋ฌํ ๋๋ฉ์ธ์์ pre-trained model์ target task์ ๋ํ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ๊ณตํ ์ ์๋ค. ์ด์ ๊ฐ์ด ์๊ฐ์ ๋ฐ ์ธ์ด์ ์ดํด๋ vision-and-language task์์ ๋ณธ์ง์ ์ผ๋ก ์ค์ํ๋ฐ, ์ด๋งํผ ์ค์ํ ๊ฒ์ด ์ด๋ค ์๋ก๋ฅผ ์ด๋ป๊ฒ ์ฐ๊ด์ง์ผ๋ ์ด๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ vision ๋ชจ๋ธ๊ณผ language ๋ชจ๋ธ์ ์ฐ๊ฒฐ์ฑ์ ํ์ตํด์ ๊ด๋ฒ์ํ vision-and-language task์ ์ฌ์ฉํ ์ ์๋ ์ผ๋ฐ์ ์ธ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ์ ํ์๋ค.
๊ณต๋ visual-linguistic representation์ ํ์ตํ๊ธฐ ์ํด์, ๋ ผ๋ฌธ์์๋ ์ต๊ทผ์ ์ฑ๊ณต์ ๊ฑฐ๋๊ณ ์๋ ๋ชจ๋ธ์ ํ์ต์์ผ์ 'proxy' task๋ฅผ ์ํํจ์ผ๋ก์จ ๊ฑฐ๋ํ unlabelled ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ์ฌ ํ๋ถํ semantic๊ณผ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ์บก์ฒํ๋ self-supervised ํ์ต ๋ฐฉ์์ ์์๋ณด์๋ค. ์ด๋ฌํ proxy task๋ supervised task๋ฅผ ์๋์ ์ผ๋ก ์์ฑํ๊ธฐ ์ํ ๋ฐ์ดํฐ์์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ค. visual grounding์ self-supervised learning๊ณผ ๋น์ทํ ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ๊ธฐ ์ํด, vision๊ณผ language ๊ฐ์ ์ ๋ ฌ์ด ๊ฐ๋ฅํ ์ ํฉํ ๋ฐ์ดํฐ ์์ค๋ฅผ ํ์ธํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด 3,300,000๊ฐ์ ์ด๋ฏธ์ง์ alt-text๋ก๋ถํฐ ์๋์ ์ผ๋ก ์์ง๋ ์ฝํ ์ฐ๊ด์ฑ์ ๊ฐ์ง ์ค๋ช ์บก์ ์ ํฌํจํ๊ณ ์๋ Conceptual Captions ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค.
๋ ผ๋ฌธ์์๋ visiolinguistic ์ง ๋ฐ์ดํฐ๋ก๋ถํฐ task-agnostic visual grounding์ ์ํ joint model์ธ Vision & Language BERT$($ViLBERT$)$์ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ ๋ฐฉ์์ BERT๋ฅผ ํ ์คํธ์ ์ด๋ฏธ์ง์ ๋ํด์ ๊ณต๋์ผ๋ก ์ถ๋ก ํ ์ ์๋๋ก ํ์ฅ์์ผฐ๋ค. ๋ ผ๋ฌธ์์ ๋งํ๋ ํต์ฌ์ ์ธ ํ์ ์ co-attentional layer์ ํตํด ์ํตํ๋ vision๊ณผ language ์ฒ๋ฆฌ๋ฅผ ์ํ ๊ฐ๋ณ stream์ ์๊ฐํ ๊ฒ์ด๋ค. ์ด ๊ตฌ์กฐ๋ ๊ฐ modality์ ๋ค์ํ ์ฒ๋ฆฌ ์๊ตฌ ์ฌํญ์ ์์ฉํ ์ ์์ผ๋ฉฐ ๋ค์ํ representation depth์์ modality ๊ฐ์ ์ํธ ์์ฉ์ ์ ๊ณตํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๊ตฌ์กฐ๊ฐ single-stream ํตํฉ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ๋งํ๋ค.
ViLBERT๋ Conceptual Captions์์ 2๊ฐ์ proxy task์ ๋ํด ํ์ตํ์๋ค: unmasked ์ ๋ ฅ์ด ์ฃผ์ด์ง๋ฉด, masked word์ ์ด๋ฏธ์ง ์์ญ์ ์๋ฏธ ์์ธก๊ณผ ์ด๋ฏธ์ง์ ํ ์คํธ ์ธ๊ทธ๋จผํธ๊ฐ ์๋ง์์ง ํ์ธ. ์ด๋ ๊ฒ 2๊ฐ์ง์ proxy task๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด์ ์ SoTA ๋ชจ๋ธ๋ค์ ๋นํด 2~10% ์ ๋ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๊ณ , ViLBERT์ ๊ตฌ์กฐ๋ ๊ฐ๊ฐ์ task์ ๋ํด์ ์ฝ๊ฒ ์กฐ์ ๋ ์ ์๋ค. ๋ฐ๋ผ์ ์ฌ๋ฌ ๊ฐ์ vision-language task์์ visual grounding์ ์ํ ์ผ๋ฐ์ ์ธ ํ ๋๋ก ์ฌ๊ฒจ์ง๋ค.
2. Approach
์ด ์น์ ์์๋ BERT์ ๋ํด์ ๊ฐ๋ตํ๊ฒ ์ดํด๋ณด๊ณ $($2-1$)$, vision๊ณผ language ๋ฐ์ดํฐ๋ฅผ ๊ณต๋์ผ๋ก ํํํ๊ธฐ ์ํด ์ด๋ป๊ฒ ํ์ฅ์์ผฐ๋์ง์ ๋ํด ์ค๋ช ํ์๋ค$($2-2$)$.
2-1. Preliminaries: BERT
BERT๋ attention ๊ธฐ๋ฐ์ ์๋ฐฉํฅ LM์ด๋ค. ๊ฑฐ๋ํ ์ธ์ด corpus์์ pre-train ๋ ๋, BERT๋ ์ฌ๋ฌ ๊ฐ์ NLP task์ ๋ํด ํจ๊ณผ์ ์ธ ์ ์ด ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. BERT์ ๋ํด์๋ ๋ฐ๋ก ์์ธํ ๋ค๋ฃจ์ง ์๊ณ BERT์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ์ ๊ดํ ํฌ์คํธ ๋งํฌ๋ฅผ ๋ฌ์๋๋๋ก ํ๊ฒ ๋ค.
BERT paper review: https://cartinoe5930.tistory.com/entry/Pre-trained-Language-Modeling-paper-reading2-BERT-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding
BERT๋ ๊ธฐ๋ณธ์ ์ผ๋ก Transformer์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ attention block์ ์ฌ์ฉํ๋๋ฐ, ๊ฒฐ๊ณผ๋ก ๋์จ ๊ฐ์ค์น ํ๊ท value vector๋ attention block์ ์ถ๋ ฅ์ ๊ตฌ์ฑํ๋ค. ๋์ค์๋ ์ค๋ช ํ๊ฒ ์ง๋ง, ๋ ผ๋ฌธ์์๋ ViLBERT๋ฅผ ์ํ multi-modal co-attentional transformer ๋ชจ๋์ ๋ง๋ค๊ธฐ ์ํด ์ด query-conditioned key-value attention ๋ฉ์ปค๋์ฆ์ ์กฐ์ ํ์๋ค$($๊ทธ๋ฆผ 2 b$)$.
2-2. ViLBERT: Extending BERT to Jointly Represent Images and Text
BERT๊ฐ NLP ๋ถ์ผ์์ ์ฑ๊ณตํ ๊ฒ์ ์๊ฐ์ ๋ฐ์ ๋ ผ๋ฌธ์์๋ ์ง ๋ฐ์ดํฐ๋ก๋ถํฐ language์ visual content์ ๊ณต๋ representation์ ํ์ตํ๊ธฐ ์ํด ์ ์ฌํ ๋ชจ๋ธ๊ณผ training task๋ฅผ ๊ฐ๋ฐํ์๋ค. ํนํ ์ ์ ์ด๋ฏธ์ง์ ๊ทธ์ ํด๋นํ๋ ์ค๋ช ํ ์คํธ๋ฅผ ๊ณต๋์ผ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๊ณ ๋ คํ์๋ค.
ํ๋์ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ์ BERT์ ์ฌ์ํ ๋ณํ๋ฅผ ์ฃผ๋ ๊ฒ์ด๋ค - visual input์ ๊ตฐ์งํ๋ฅผ ํตํด visual 'token'์ text input ๊ฐ์ด ๋ค๋ฃจ๊ณ pre-trained BERT model๋ก๋ถํฐ ์์ํ๋ ๊ฒ์ด๋ค. ์ด architecture๋ ๋ช ๊ฐ์ ๊ฒฐ์ ์ ๊ฐ์ง๋ค.
- ์ด๊ธฐ์ ๊ตฐ์งํ์ ์ค๋ฅ๊ฐ ์์ ์ ์๋ค.
- ๋ ์ ๋ ฅ modality๋ฅผ ๋์ผํ๊ฒ ๋ค๋ฃฌ๋ค. ์ด๋ representation์ ํด์น ์ ์๋ค.
- pre-trained ๊ฐ์ค์น์๊ฒ ์ถ๊ฐ์ visual 'token'์ ์์ฉํ๊ฒ ํ๋ ๊ฒ์ ํ์ต๋ BERT LM์ ๋๋ฏธ์ง๋ฅผ ์ค ์ ์๋ค.
๊ทธ ๋์ ์, ๋ ผ๋ฌธ์์๋ ๊ฐ๊ฐ์ modality์ ๋ํด ๋ชจ๋ธ๋ง์ ๊ฐ๋ณ์ ์ผ๋ก ํ๊ณ ์์ ์ธํธ์ attention ๊ธฐ๋ฐ์ ์ํธ์์ฉ์ ํตํด ์ตํฉํ๋ two-stream architecture์ ๊ฐ๋ฐํ์๋ค. ์ด ๋ฐฉ์์ ๊ฐ๊ฐ์ modality์ ๋ํด ๋ณ๋ ๊ฐ๋ฅํ ๋คํธ์ํฌ depth๋ฅผ ํ์ฉํด ์ฃผ๊ณ ์๋ก ๋ค๋ฅธ depth์์ cross-modal connection์ ๊ฐ๋ฅํ๊ฒ ํด ์คฌ๋ค.
ViLBERT๊ฐ ๊ทธ๋ฆผ 1์ ๋ฌ์ฌ๋์ด ์๊ณ , ์ด ๊ทธ๋ฆผ์ ์ดํด๋ณด๋ฉด ViLBERT๋ ์ด๋ฏธ์ง ์์ญ๊ณผ ํ ์คํธ ์ธ๊ทธ๋จผํธ์ ๋ํด ์ฐ์ฐ์ ํ๋ ๋ ๊ฐ์ ๋ณ๋ ฌ BERT-style model๋ก ์ด๋ฃจ์ด์ ธ ์์์ ์ ์ ์๋ค. ๊ฐ๊ฐ์ stream์ ์ฌ๋ฌ ๊ฐ์ Transformer block$($TRM$)$๊ณผ modality ๊ฐ์ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ ์๋ก์ด co-attentional transformer layer$($Co-TRM$)$์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ฃผ์ด์ง ์ด๋ฏธ์ง $I$๋ region feature $v_1, ..., v_{T}$์ text input $w_0, ..., w_{T}$์ ์ธํธ๋ก ํํ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ ์ต์ข representation $h_{v0}, ..., h_{vT}$์ $h_{w0}, ..., h_{wT}$์ ์ถ๋ ฅํ๋ค. ๋ stream ๊ฐ์ ์ ๋ณด ๊ตํ์ ํน์ ๋ ์ด์ด์์๋ง ๊ฐ๋ฅํ๊ณ text stream์ visual feature๊ณผ ์ํธ์์ฉํ๊ธฐ ์ ์ ์๋นํ ๋ ๋ง์ ์์ ์ฒ๋ฆฌ๊ฐ ํ์ํ๋ค - ์ ํํ visual feature์ด ์ด๋ฏธ ์๋นํ high-level์ด๋ฉฐ ๋ฌธ์ฅ์ ๋จ์ด์ ๋น๊ตํ์ฌ ์ ํ๋ context-aggregation๊ฐ ํ์ํ๋ค๋ ์ง๊ด๊ณผ ์ผ์นํ๋ค.
Co-Attentional Transformer Layers. ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฆผ 2 b์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ co-attentional transformer layer์ ์๊ฐํ์๋ค. ์ค๊ฐ visual & linguistic representation $H_{V}^{(i)}$์ $H_{W}^{(j)}$๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ชจ๋์ ๊ธฐ์กด์ transformer block์ฒ๋ผ query, ket, value ํ๋ ฌ์ ๊ณ์ฐํ๋ค. ํ์ง๋ง, ๊ฐ modality๋ก๋ถํฐ ๋์จ key์ value๋ ๋ค๋ฅธ modality์ multi-headed attention block์ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก attention block์ ๊ฐ modality๊ฐ ์๋ก์ modality์ ์กฐ์ ๋๊ธฐ ์ํด attention-pooled feature์ ์์ฑํ๋ค - visual stream์์ image-conditioned language attention์ ์ํ & linguistic stream์์ language-conditioned image attention์ ์ํ. ํ์๋ vision-and-language model์์ ์ฐพ์ ์ ์๋ ์ผ๋ฐ์ ์ธ attention ๋ฉ์ปค๋์ฆ์ ํ๋ด ๋ธ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋จ์ Transformer layer๋ ์ด์ ์ฒ๋ผ ์ ์์ ์ผ๋ก ์ํ๋๊ณ ๊ฒฐ๊ณผ๋ก๋ multi-modal feature๋ฅผ ์ป๊ฒ ๋๋ค.
Image Representations. ๋ ผ๋ฌธ์์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ pre-trained ๊ฐ์ฒด ํ์ง ๋คํธ์ํฌ๋ก๋ถํฐ ์ป์ visual feature๋ฅผ ์ถ์ถํจ์ผ๋ก์จ ์ด๋ฏธ์ง ์์ญ feature๋ฅผ ์์ฑํ์๋ค. ํ ์คํธ์์ ๋จ์ด์ ๋ฌ๋ฆฌ, ์ด๋ฏธ์ง ์์ญ์ ์์ฐ์ ์ธ ์์๊ฐ ๋ถ์กฑํ๋ค. ๋ ผ๋ฌธ์์๋ ๋์ ์ ๊ณต๊ฐ์ ์ฅ์๋ฅผ ์ธ์ฝ๋ฉํ๊ณ , region position๊ณผ ์ปค๋ฒ๋ ์ด๋ฏธ์ง ์์ญ์ ๋น์จ๋ก๋ถํฐ 5์ฐจ์ ๋ฒกํฐ๋ฅผ ๋ง๋ค์๋ค. ๊ทธ๋ค์์ ์ด๊ฒ๋ค์ visual feature์ ์ฐจ์๊ณผ ๋ง์ถ๊ธฐ ์ํด project ๋๊ณ ํฉ์ณ์ง๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์์ญ ์ํ์ค์ ์์์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ํํํ๋ ์คํ์ ํ ํฐ์ธ IMG token์ ๋งํนํ์๋ค.
Training Tasks and Objectives. ์ด์ ์น์ ์์ ์ค๋ช ํ ๊ฒ๊ณผ ์ ์ฌํ๊ฒ 2๊ฐ์ pre-training task๋ฅผ ๊ณ ๋ คํ์๋ค: masked multi-modal modeling & multi-modal alignment prediction.
masked multi-modal modeling task$($๊ทธ๋ฆผ 3 a ์ฐธ๊ณ $)$๋ ๊ธฐ์กด์ BERT์์์ MLM task๋ฅผ ๋ฐ๋ผ ํ์๋ค. 15% ํ๋ฅ ๋ก word์ image ์์ญ์ ๋ง์คํนํ๊ณ ๋ชจ๋ธ์ด ์ฃผ์ด์ง ๋จ์ ์ ๋ ฅ๊ฐ์ผ๋ก mask ์ด์ ์ ๊ฐ์ ์ฐพ์ ์ ์๋๋ก ํ์ต์์ผฐ๋ค. ์ด๋ฏธ์ง ์์ญ์ด ๋ง์คํน๋ ๊ฒฝ์ฐ 90% ํ๋ฅ ๋ก image feature๊ฐ ๋ชจ๋ 0์ผ๋ก ๋ฐ๋๊ณ , ๋จ์ 10% ํ๋ฅ ๋ก ๋ฐ๋์ง ์๋๋ค. ์ด๋ BERT์ MLM ๋ฐฉ์๊ณผ ์ ์ฌํ๋ค. ๊ทธ๋ฆฌ๊ณ masked text๋ BERT์์ ์ฒ๋ผ ๋ค๋ค์ง๋ค. ์ง์ ์ ์ผ๋ก masked feature value๋ฅผ ํดํ์ํค๊ธฐ๋ณด๋ค๋ ๋์ ์ ํด๋นํ๋ ์ด๋ฏธ์ง ์์ญ์ ๋ํด semantic class์ ๋ถํฌ๋ฅผ ์์ธกํ๊ฒ ํ๋ค. ์ด๋ฅผ ์ง๋ํ๊ธฐ ์ํด, feature extraction์ ์ฌ์ฉ๋๋ ๋๊ฐ์ pre-trained detection model๋ก๋ถํฐ ์์ญ์ ๋ํ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์ด์ฉํ๋ค. ์ด๋ฅผ ์ด์ฉํด์ ๋ชจ๋ธ์ด ์ด ๋ ๋ถํฌ ๊ฐ์ KL divergence$($๋ ๋ถํฌ์ ์ฐจ์ด ์ธก์ ๋ฒ$)$๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๋ค. ์ด ์ ํ์ language๊ฐ ์ข ์ข visual content์ high-level์ ์๋ฏธ๋ง ์๋ณํ๊ณ ์ ํํ image feature์ ์ฌ๊ตฌ์ฑํ ์ ์์ ๊ฐ๋ฅ์ฑ์ด ์๋ค๋ ๊ฐ๋ ์ ๋ฐ์ํ๋ค. ๋ํ ํ๊ท ์์ค์ ์ ์ฉํ๋ฉด ๋ง์คํน๋ ์ด๋ฏธ์ง์ ํ ์คํธ ์ ๋ ฅ์ผ๋ก ์ธํด ๋ฐ์ํ๋ ์์ค์ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ด๋ ค์ธ ์ ์๋ค.
multi-modal alignmen task$($๊ทธ๋ฆผ 3 b ์ฐธ๊ณ $)$์์ ๋ชจ๋ธ์ image-text ์์ด ${IMG, v_1, ..., v_{T}, CLS, w_1, ..., w_{T}, SEP}$๋ก ๋ค์ด์ค๋ฉด ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์ ๋ ฌ๋์๋์ง ์์ธกํ๋ค$($ํ ์คํธ๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๊ณ ์๋์ง ํ์ธ$)$. ๊ฒฐ๊ณผ์ ์ผ๋ก visual๊ณผ linguistic input์ representation์ผ๋ก $h_{IMG}$์ $h_{CLS}$์ ์ถ๋ ฅ๊ฐ์ ๊ฐ์ง๋ค. ๋ค๋ฅธ vision-and-language model๋ก๋ถํฐ ๋ค๋ฅธ ์ผ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋น๋ ค์์, ๋ ผ๋ฌธ์์๋ ์ ๋ฐ์ ์ธ representation์ $h_{IMG}$์ $h_{CLS}$ ๊ฐ์ element-wise product์ฒ๋ผ ๊ณ์ฐํ๊ณ ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์ ๋ ฌ๋์ด ์๋์ง๋ฅผ ํ๋จํ๋ ์ด์ง ๋ถ๋ฅ๋ฅผ ํ๊ธฐ ์ํด ์ ํ ๋ ์ด์ด๋ฅผ ํ์ตํ์๋ค. ํ์ง๋ง, Conceptual Captions ๋ฐ์ดํฐ์ ์ ์ค์ง ์ ๋ ฌ๋ image-caption ์์ ํฌํจํ๊ณ ์๊ธฐ ๋๋ฌธ์, negative image-caption ์์ ์์ฑํ๊ธฐ ์ํด, ์ด๋ฏธ์ง ๋๋ ์บก์ ์ ๋ค๋ฅธ ๊ฒ์ผ๋ก ๋๋ค ํ๊ฒ ๋์ฒดํ์๋ค.
3. Experimental Settings
์ด ์น์ ์์๋ ์ด๋ป๊ฒ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋์ง์ vision-and-language task์ ํ์ต๋ ๋ชจ๋ธ์ ์ ์ด์์ผฐ์ ๋ ์ด๋ ํ๋์ง์ ๋ํ ๊ฐ์๋ฅผ ์ค๋ช ํ๋๋ก ํ๊ฒ ๋ค.
3-1. Training ViLBERT
ViLBERT๋ฅผ ํ์ต์ํค๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ Conceptual Captions ๋ฐ์ดํฐ์ ์ ์ ์ฉ์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ language์ vision์ ์ํ ๋ชจ๋ธ๋ก๋ ๋ค์์ ๋ชจ๋ธ๋ค์ ์ฌ์ฉํ์๋ค.
- linguistic stream์ BERT_BASE model์ ์ฌ์ฉํ์๋ค.
- ์ด๋ฏธ์ง ์์ญ ์ถ์ถ์ ์ํด Faster R-CNN์ ์ฌ์ฉํ์๋ค.
3-2. Vision-and-Language Transfer Tasks
๋ ผ๋ฌธ์์๋ pre-trained ViLBERT์ 4๊ฐ์ vision-and-language task์ ํ๋์ diagnostic task์ ์ ์ฉ์์ผ๋ณด์๋ค$($๊ทธ๋ฆผ 4 ์ฐธ๊ณ $)$. ์ฌ์ฉ๋ 4๊ฐ์ vision-and-language task๋ ์๋์ ๊ฐ๋ค. ์ด task๋ค์ ๋ํ ์ค๋ช ์ ๋ฐ๋ก ํ์ง ์๊ฒ ๋ค. ๋ ผ๋ฌธ์์๋ pre-trained base model์ ์์ ํ์ฌ ์ task๋ฅผ ์ํํ ๋ค์ ์ ์ฒด ๋ชจ๋ธ์ ์ข ๋จ ๊ฐ ํ๋ จํ๋ fine-tuning ์ ๋ต์ ์ธ์ ๋ค.
- VQA, VCR, Referring Expressions, Caption-Based Image Retrieval
๊ทธ๋ฆฌ๊ณ ํ๋์ diagnostic task๋ก 'Zero-shot' Caption-Based Image Retrieval์ ๋จ๊ฒจ๋๋ค. ์ด์ ์ task๋ ๋ฐ์ดํฐ์ ํนํ fine-tuning์ ๊ฑฐ์น task๋ค์ด๋ค. ์ด 'zero-shot' task์์๋, pre-trained multi-modal alignment ์์ธก ๋ฉ์ปค๋์ฆ์ ๋ฐ๋ก caption-based image retrieval์ ์ ์ฉ์์ผฐ๋ค. ์ด task์ ๋ชฉํ๋ pre-training์ด ํ ์คํธ๋ฅผ ground ํ๋ ๋ฅ๋ ฅ์ ๊ฐ๋ฐํ์ผ๋ฉฐ ์ด๊ฒ์ด task๋ณ fine-tuning ์์ด ์๊ฐ์ ๋ฐ ์ธ์ด์ ๋ณํ๋ฅผ ์ผ๋ฐํํ ์ ์์์ ์ ์ฆํ๋ ๊ฒ์ด๋ค.
4. Results and Analysis
Baselines. ๋ ผ๋ฌธ์์๋ pre-trained ViLBERT ๋ชจ๋ธ์ ๋ ๊ฐ์ ablative baseline์ ๋ํด ๋น๊ตํ์๋ค. ์ด baseline๋ค๊ณผ ViLBERT์ ๋ํด์ ์ด์ ์น์ ์์ ์ค๋ช ํ๋ ๊ฒ์ฒ๋ผ transfer task๋ฅผ fine-tune ํ์๋ค.
- Single-Stream: ํ๋์ BERT๋ก ๋ modality ์ ๋ ฅ์ ๋๊ฐ์ Transformer์ block์ ํตํด ์ฒ๋ฆฌ - ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๊ณ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์ ๋ ฅ ๋ชจ๋์ ์คํ์ ์ฒ๋ฆฌ. BERT์ ๊ตฌ์กฐ์ ๋ณํ๋ฅผ ์ฃผ๋ ๊ฒ์ ํผํด์ ๋์ฑ ๊น์ visual processing๊ณผ modality ๊ฐ์ ์ด๋ฅธ ์ํธ ์์ฉ์ ๊ฐ์ ธ์ด. two-stream archtecture์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด ์ด baseline์ ํ์ฉํจ.
- ViLBERT†: ๋๊ฐ์ ViLBERT์ธ๋ฐ pre-training task๋ฅผ ๊ฑฐ์น์ง ์์ ๋ชจ๋ธ์ด๋ค. task-specific์ผ๋ก ์ป์ ์ ์๋ ์ด์ ์ ๋น๊ตํ๊ธฐ ์ํด ํ์ฉํจ.
Task-Specific Baselines. ViLBERT๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ๋ ๋น๊ตํ๊ธฐ ์ํด ๊ฐ task์ ํนํ๋ ๋ชจ๋ธ๋ค ๋ํ ๊ตฌํํ์๋ค.
Results. ํ 1์ ๋ชจ๋ transfer tak์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
- ViLBERT๋ single-stream model๋ณด๋ค ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค: ViLBERT๋ pre-trained model๊ณผ non-pretrained model์ด task์ ๋ํด์ single-stream baseline๋ณด๋ค ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋๋ถ๋ถ์ ์๋นํ ์ฑ๋ฅ ํฅ์์ VQA์ RefCOCO+์์ ๋ณด์๋ค.
- ViLBERT์ด pre-training task๋ ํฅ์๋ visiolinguistic representation์ ๋ณด์ฌ์ค: proxy task์์ pre-train ๋ ViLBERT ๋ชจ๋ธ์ ๊ธฐ์กด์ ๋ชจ๋ธ๋ค๋ณด๋ค task์ ๋ํด 2%์์ 13% ์ ๋ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ single-stream baseline์ proxy task๋ฅผ ์ ์ฉํด ๋ณธ ๊ฒฐ๊ณผ ํฅ์๋ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค. ์ด๋ proxy task๋ฅผ ์ฌ์ฉํ๋ฉด ์๋ก ๋ค๋ฅธ model architecture์ ๋ํด์ ๋ ์ ์ผ๋ฐํํ ์ ์๋ค๋ ๊ฑธ ์ ์ ์์๋ค.
- ViLBERT๋ก๋ถํฐ fine-tuning ํ๋ ๊ฒ์ vision-and-language task์ ๋ํ ๊ฐ๋ ฅํ ์ ๋ต: single base architecture์ ํจ๊ป ๋ ผ๋ฌธ์ transfer task ์ฑ๋ฅ์ 4๊ฐ์ task์ ๋ํด์ SoTA task-specific model๋ณด๋ค ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ค์ ๋ก VCR, RefCOCO+, image retrieval์ ๋ํด์ ์๋นํ ๋ง์ง์ ๊ฐ๊ณ SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๋ํ ์ด๋ฌํ task๋ก ํ์ฅํ๋ ๊ฒ์ ๊ฐ๋จํ๋๋ฐ, ๊ฐ ์์ ์ ๋ํด ๋จ์ผ ๋ถ๋ฅ์๋ฅผ ์ถ๊ฐํ๊ธฐ๋ง ํ๋ฉด ๋๋ค.
์ ๋ฐ์ ์ผ๋ก ์ด๋ฌํ ๊ฒฐ๊ณผ๋ค์ ViLBERT๊ฐ downstream task์ ์ฌ์ฉ๋ ์ ์๋ ์ค์ํ visual-linguistic ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ ์ค๋ช ํด ์คฌ๋ค.
Effect of Visual Stream Depth. ํ 2์์๋ ViLBERT ๋ชจ๋ธ์ ์ฌ๋ฌ depth๋ก๋ถํฐ ์ ๋ฌ๋ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ์๋ค. ๋ ผ๋ฌธ์์๋ depth๋ฅผ ๋ชจ๋ธ์์ CO-TRM → TRM block์ด ๋ฐ๋ณต๋ ํ์๋ก ์๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ VQA์ Image Retrieval task๊ฐ ๋์ฑ ๊น์ depth๋ก๋ถํฐ ์ด์ต์ ์ป๋ ๊ฒ์ ์์๋ด์๋ค - ์ด ์ฑ๋ฅ ํฅ์์ depth๊ฐ 6์ผ ๋๊น์ง ์ ์ง์ ์ผ๋ก ํฅ์ํ๋ค. ์ด์ ๊ฐ์ด zero-shot image retrieval์ depth๊ฐ ์ฆ๊ฐํ๋ฉด ์ฆ๊ฐํ ์๋ก ์ฑ๋ฅ์ด ๊ณ์ ํฅ์ํ๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด์ ๋ฐ๋๋ก, VCR๊ณผ RefCOCO+๋ ๋ฎ์ ๋ชจ๋ธ์์ ์ด์ต์ ์ป๋ ๊ฒ์ ๋ณผ ์ ์์๋ค.
Benefits of Large Training Sets. ๋ ผ๋ฌธ์์๋ pre-training ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์ฃผ๋ ์ํฅ์ ๋ํ์ฌ ์ฐ๊ตฌํ์๋ค. ์ด ์คํ์ ์งํํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ conceptual caption dataset์ 25%, 50% ๋๋ค ์๋ธ์ ์ ์ฌ์ฉํ๊ณ ์์ ์ธํ ๊ณผ ๋๊ฐ์ ์ ์ ์ ์ฌ์ฉํด์ ViLBERT๋ฅผ pre-train ํ๊ณ fine-tune ํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์์ด ์ฆ๊ฐํ๋ฉด ์ฆ๊ฐํ ์๋ก ์ ํ๋๊ฐ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐํ๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ViLBERT๊ฐ ๋์ฑ ๋ง์ pre-training data๋ก๋ถํฐ ์ด์ต์ ์ป๋๋ค๊ณ ์๊ฐํ ์ ์๋ค.
What does ViLBERT learn during pre-training? ViLBERT๊ฐ Conceptual Captions pre-training ์ค์ ์ด๋ค ๊ฒ์ ํ์ตํ๋์ง ์์๋ณด๊ธฐ ์ํด zero-shot caption-based image retrieval๊ณผ ๋ช ๊ฐ์ qualitative example์ ์ดํด๋ณด์๋ค. zero-shot ์ฑ๋ฅ$($ํ 1 ์ค๋ฅธ์ชฝ$)$์ fine-tuned model๋ณด๋ค ํจ์ฌ ๋ฎ์ง๋ง Flickr30K ์ด๋ฏธ์ง๋ ์บก์ ์ ๋ณด์ง ์๊ณ ํฉ๋ฆฌ์ ์ผ๋ก ์ํํ๋ค - ์ด๋ ViLBERT๊ฐ pre-training ์ค์ vision๊ณผ language ๊ฐ์ ์๋ฏธ ์๋ ์ ๋ ฌ์ ํ์ตํ๋ค๊ณ ๋ณผ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ํ pre-trained ViLBERT ๋ชจ๋ธ์ ๊ฒ์ฌํ๊ธฐ ์ํด ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ image-conditioned ํ ์คํธ๋ฅผ ์ถ๋ ฅํ๊ฒ ํ์๋ค. ์ด๋ ๋ณธ์ง์ ์ผ๋ก image captioning์ด๋ค. ๋ชจ๋ธ์ ๊นจ๋ํ๊ณ , ์ฌ๋์ด ๋ผ๋ฒจ๋ง ํ captioning data์์ fine-tuning ํ์ง ์์ผ๋ฉด ์ถ๋ ฅ์ ํ๋ฆฌํฐ๊ฐ ๊ทธ๋ฆฌ ๋์ง ์๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ pre-trained model์ด ํ์ตํ ๋ด์ฉ์ ๊ฒ์ฌํ๋ ๋ฉ์ปค๋์ฆ ์ญํ ์ ํ๋ค. ๊ทธ๋ฆผ 5๋ ๋ช ๊ฐ์ง ์ํ๋ง๋ caption์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. BERT-style model๋ก๋ถํฐ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ ์ด๋ ค์๋ ์ฐ๊ตฌ ๋ถ์ผ์ด๊ณ ์ํ๋ง ๊ณผ์ ์ ๋ค์์ ๋ฐ๋๋ค - text stream์ ๋ชจ๋ MASK token์ ์ฌ์ฉํด์ ์ด๊ธฐํํ๊ณ ๊ทธ๋ค์์ Markov Chain Monte Carlo ๋ฐฉ์์์์ ์์ธก๋ ์ถ๋ ฅ ํ ํฐ์ ์์ฐจ์ ์ผ๋ก ๋ฆฌ์ํ๋งํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ง์ ์ด๋ฏธ์ง๋ค์ด ์ด๋ฏธ์ง ์ฝํ ์ธ ๋ฅผ ์ค๋ช ํ๋ ์บก์ ์ ์์ฑํ๋ ๊ฒ์ ์ฐพ์๋ด์๋ค. ํ์ง๋ง, web-image alt-text๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๋ Conceptual Captions์ ์์ง ๊ณผ์ ๋๋ฌธ์ ๋ง์ ์บก์ ๋ค์ ์ฌ๊ฒฌ์ด ์์ฌ์๋ ๊ฒ์ ๋ณผ ์ ์๋ค. $($๋ค์ ๊ทธ๋ฆผ์ ์ผ์ชฝ ์์ ์๋ ์์๋ฅผ ๋ณด๋ผ$)$ ๊ทธ๋ฆฌ๊ณ non-visual concept์ ๋ํ ์ฐธ์กฐ๋ฅผ ํฌํจํ๊ณ ์๊ธฐ๋ ํ๋ค.
5. Conclusion
๋ ผ๋ฌธ์์๋ image ์ฝํ ์ธ ์ text ์ฝํ ์ธ ๋ฅผ ์ํ joint model์ ๊ฐ๋ฐํ๊ณ visual grounding์ ํ์ตํ๊ธฐ ์ํด ๊ฑฐ๋ํ๊ณ ์๋์ ์ผ๋ก ์์ง๋ ๋ฐ์ดํฐ์ ์์ pre-train ํ์๋ค. ViLBERT ๋ชจ๋ธ์ co-attentional transformer block์ ์ฌ์ฉํ๋ ์๋ก์ด two-stream architecture์ ์๊ฐํ์๋๋ฐ, ์ด๋ ์ฌ๋ฌ ๊ฐ์ vision-and-language task์ ๋ํด ์ ์ฉ๋์์ ๋ ๊ธฐ์กด์ SoTA ๋ชจ๋ธ์ ๋ฅ๊ฐํ๊ณ ๊ทธ๋ด๋ฏํ ablation๋ ๋ฅ๊ฐํ์๋ค. ๊ฒ๋ค๊ฐ, ViLBERT๋ฅผ ์ด๋ฌํ task์ ์ ๋ฌํ๋ ๊ฒ์ ๊ตฌํํ๊ธฐ ์ฝ๊ณ ๊ฐ๋จํ๋ค - ์คํ์ ์งํํ ๊ฐ task์ ๋ํ ๋ถ๋ฅ๊ธฐ์ ์ถ๊ฐ๋ง์ ํ์๋ก ํ๋ค. ๋ ผ๋ฌธ์์๋ ViLBERT๋ฅผ ๋ค๋ฅธ vision-and-language task๋ก ํ์ฅ์ํค๋ ๊ฒ๋ฟ๋ง ์๋๋ผ multi-task learning ๋ํ ํฅ๋ฏธ๋ก์ด future work๋ผ๊ณ ์๊ฐํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/1908.02265