The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ ๊ด๋ฒ์ํ vision-language task๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํ ๊ฐ๋จํ๊ณ ์ ์ฐํ ํ๋ ์์ํฌ์ธ VisualBERT๋ฅผ ์ ์ํ์๋ค. VisualBERT๋ self-attention์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ํ ์คํธ์ ์์ญ์ ์์๋ค์ ์ฐ๊ด๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก ์ ๋ ฌํ๋ Transformer layer์ ์คํ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ image caption ๋ฐ์ดํฐ์์ pre-training ์ํค๊ธฐ ์ํด ์ถ๊ฐ์ ์ผ๋ก ๋ ๊ฐ์ visually-grounded language model ๋ชฉํ๋ฅผ ์ ์ํ์๋ค. VQA, VCR, NLVR, Flickr30K ์ด๋ ๊ฒ 4๊ฐ์ vision-language task์ ์งํํ ์คํ์ VisualBERT๊ฐ ๊ฐ๋จํ๋ฉด์๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ฑฐ๋ ๋๋ก๋ SoTA๋ฅผ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค.
Table of Contents
1. Introduction
2. A Joint Representation Model for Vision & Language
2-1. Background
2-2. VisualBERT
2-3. Training VisualBERT
3. Experiments
4. Analysis
4-1. Ablation Study
4-2. Qualitative Analysis
1. Introduction
vision๊ณผ language๋ฅผ ํผํฉํ task๋ ์๊ฐ ์ ๋ณด ์์คํ ์ ์ถ๋ฆฌ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ข์ test-bed๋ก ์ฌ๊ฒจ์ง๋ค. ์๋ํ๋ฉด ์ด task๋ฅผ ์งํํ๋ฉด์ ์์คํ ์ ์ฌ๋ฌผ, ํน์ง, ๋ถ๋ถ, ๊ณต๊ฐ์ ๊ด๊ณ, ํ๋๊ณผ ๋ชฉ์ ๋ฑ์ ์ด๋ฌํ ์ด๋ป๊ฒ ์์ฐ์ด๋ก ์ฐธ์กฐ๋๊ณ ๊ธฐ๋ฐ์ด ๋๋์ง ๊ด๋ฒ์ํ ๋ํ ์ผ์ ์๋ฏธ๋ฅผ ์ดํดํด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง์ ์ฐ๊ด๋ ํ ์คํธ์์ ํ๋ถํ ์๋ฏธ๋ฅผ ์บก์ฒํ๊ธฐ ์ํด ๋์์ธ๋ ๊ฐ๋จํ๊ณ ์ ์ฐํ ๋ชจ๋ธ์ธ VisualBERT๋ฅผ ์ ์ํ์๋ค. VisualBERT๋ BERT์ Faster-RCNN์ ํตํฉ์์ผฐ์ผ๋ฉฐ ๋ค์ํ vision-and-language task์ ์ ์ฉ๋ ์ ์๋ค. ํนํ, ๊ฐ์ฒด ํ์ง์์ ๋ฝ์๋ธ image feature๋ ์์๊ฐ ์๋ ํ ํฐ์ผ๋ก ๋ค๋ค์ ธ์ text์ ํจ๊ป VisualBERT๋ก ๋ค์ด๊ฐ๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ ๋ ฅ ํ ์คํธ์ ์ด๋ฏธ์ง๋ VisualBERT์ ์ฌ๋ฌ ๊ฐ์ Transformer layer์ ์ฌ์ฉํ์ฌ ํจ๊ป ์ฒ๋ฆฌ๋๋ค$($๊ทธ๋ฆผ 2. ์ฐธ๊ณ $)$. ๋จ์ด์ ์ด๋ฏธ์ง ๊ฐ์ฒด ๊ฐ์ ํ๋ถํ ์ํธ์์ฉ์ ๋ชจ๋ธ์ด ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ๋ณต์กํ ์ฐ๊ด์ฑ์ ์บก์ฒํ๋๋ก ํด์ค๋ค.
BERT์ ์ ์ฌํ๊ฒ, VisualBERT๋ฅผ ์ธ๋ถ ์์ค์์ pre-training ์ํค๋ ๊ฒ์ downstream ์์ฉ์ ์ด์ต์ ๊ฐ์ ธ๋ค ์ค๋ค. ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ฐ๊ด์ฑ์ ํ์ต์ํค๊ธฐ ์ํด, VisualBERT๋ฅผ ์ด๋ฏธ์ง์ ๋ํ ์ผํ ์๋ฏธ๊ฐ ์์ฐ์ด๋ก ํํ๋์ด ์๋ image caption ๋ฐ์ดํฐ์์ pre-training ํ๊ณ ์ ํ์๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ pre-training์ ์ํ ๋ ๊ฐ์ visually-grounded language modeling ๋ชฉํ๋ฅผ ์ ์ํ์๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก image caption ๋ฐ์ดํฐ์์ pre-training์ ํ๋ ๊ฒ์ด ์ ํ ๊ฐ๋ฅํ text์ visual representation์ ํ์ตํ๊ธฐ ์ํ VisualBERT์ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
- text์ ์ผ๋ถ๋ถ์ด ๋ง์คํน๋๊ณ ๋จ์ text์ visual context๋ฅผ ์ฌ์ฉํด์ masked word๋ฅผ ์์ธก
- ์ ๊ณต๋ text์ image๊ฐ ์ผ์นํ๋์ง ํ๋จํ๋๋ก ํ์ฌ ํ์ต
์์ paper overview์์ ์ธ๊ธํ๋ ๊ฒ์ฒ๋ผ VisualBERT๋ VQA, VCR, NLVR, Flickr30K task์ ๋ํด ์คํ์ ์งํํ์๊ณ , ๊ทธ ๊ฒฐ๊ณผ VisualBERT๋ ์ด์ ์ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ VisualBERT์ ์ด๋ค ๋ถ๋ถ์ด ์ข์ ์ฑ๋ฅ์ ๋์ด๋ด๋์ง๋ฅผ ablation study๋ฅผ ํตํด ๋ฐํ๋๋ค. ๋ ผ๋ฌธ์์๋ pre-training์ ํตํด VisualBERT๋ entity๋ฅผ groundํ๊ณ ๋จ์ด์ ์ด๋ฏธ์ง ์์ญ ๊ฐ์ ํน์ ์ข ์์ฑ ๊ด๊ณ๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ์๋ค๊ณ ํ์๋ค. ์ด๋ ์ด๋ฏธ์ง์ ์์ธํ ์๋ฏธ ์ฒด๊ณ์ ๋ํ ๋ชจ๋ธ์ ์ดํด๋ฅผ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ๋ค$($๊ทธ๋ฆผ 1. ์ฐธ๊ณ $)$.
2. A Joint Representation Model for Vision and Language
์ด ์น์ ์์๋ vision๊ณผ language์ ๋ํด ๊ณต๋ ์ํฉํ๋ representation์ ํ์ตํ๊ธฐ ์ํ ๋ชจ๋ธ์ธ VisualBERT์ ๋ํด์ ์๊ฐํ๋๋ก ํ๊ฒ ๋ค. BERT์ background์ ๋ํด์๋ ๋ฐ๋ก ์์๋ณด์ง ์๊ณ ์ด๋ป๊ฒ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๋์ง์ ๋ํ ์์ฝ$($2-2$)$์ ํ์ต ํ๋ก์์ $($2-3$)$์ ๋ํด์ ์ค๋ช ํ๋๋ก ํ๊ฒ ๋ค.
2-1. Background
๋ ผ๋ฌธ์์ ์ ์ํ VisualBERT๋ ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด BERT๊ฐ ๊ธฐ๋ฐ์ด ๋๋ ๋ชจ๋ธ์ด๋ค. ๋ฐ๋ผ์ BERT์ ๋ํ ์ดํด๊ฐ ํ์ํ๋ฐ ๋ณธ ํฌ์คํธ์์๋ ๋ฐ๋ก ๋ค๋ฃจ์ง ์๊ณ BERT์ ๊ดํ ํฌ์คํธ๋ฅผ ๋ฌ์๋๋๋ก ํ๊ฒ ๋ค. VisualBERT๋ฅผ ์ดํดํ๋๋ฐ ๊ผญ ํ์ํ ๋ถ๋ถ์ด๋ ๋ถ์กฑํ๋ค ์ถ์ผ๋ฉด ํ ๋ฒ ํ์ธํด๋ณด๊ธธ ๋ฐ๋๋ค.
BERT ์ค๋ช ํฌ์คํธ: https://cartinoe5930.tistory.com/entry/Pre-trained-Language-Modeling-paper-reading2-BERT-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding
2-2. VisualBERT
VisualBERT์ ํต์ฌ ์์ด๋์ด๋ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์์ญ๊ณผ ์ ๋ ฅ ํ ์คํธ์ ์์๋ฅผ ์ ๋ ฌํ๊ธฐ ์ํด Transformer ๋ด๋ถ์์ self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ BERT์ ๋ชจ๋ ๊ตฌ์ฑ ์์ ์ธ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ์ผ๋ จ์ ์๊ฐ์ ์๋ฒ ๋ฉ $F$๋ฅผ ๋์ ํ์๋ค. ๊ฐ๊ฐ์ $f \in F$๋ ๊ฐ์ฒด ํ์ง๊ธฐ๋ก๋ถํฐ ์ป์ด์ง ์ด๋ฏธ์ง์์์ ๋ฐ์ด๋ฉ ์์ญ์ ํด๋น๋๋ค.
$F$์ ๊ฐ๊ฐ์ ์๋ฒ ๋ฉ์ 3๊ฐ์ ์๋ฒ ๋ฉ์ ํฉ์ผ๋ก ๊ณ์ฐ๋๋ค.
- $f_{o}$: $f$์ ๋ฐ์ด๋ฉ ์์ญ์ visual feature representation. CNN์ผ๋ก ๊ณ์ฐ๋จ.
- $f_{s}$: ํ ์คํธ ์๋ฒ ๋ฉ์ด ์๋๋ผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ด๋ผ๋ ๊ฒ์ ๋ํ๋.
- $f_{p}$: position embedding. ๋จ์ด์ ๋ฐ์ด๋ฉ ์์ญ ์ฌ์ด์ ์ ๋ ฌ์ด ์ ๋ ฅ์ ์ผ๋ถ๋ก ์ ๊ณต๋๊ณ ์ ๋ ฌ๋ ๋จ์ด์ ํด๋นํ๋ position embedding์ ํฉ์ผ๋ก ์ค์ ๋ ๋ ์ฌ์ฉ๋จ.
์ด๋ ๊ฒ ์ป์ด์ง visual embedding์ text embedding์ ๊ธฐ๋ณธ ์ธํธ์ ํจ๊ป multi-layer Transformer๋ก ๋ค์ด๊ฐ๊ณ , ๋ชจ๋ธ์ด ์ด ๋ ๊ฐ์ ์ ๋ ฅ ์ธํธ์์ ์ ์ฉํ ์ ๋ ฌ์ ๋ฐ๊ฒฌํ ์ ์๊ฒ ํด ์ฃผ๊ณ , ์๋ก์ด ๊ณต๋ representation์ ๋ง๋ค๊ฒ ํด ์ค๋ค.
2-3. Training VisualBERT
๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ ํ์ต์ํฌ ๋ BERT์ ์ ์ฌํ ํ์ต ํ๋ก์์ ๋ฅผ ์ฌ์ฉํ๊ณ ์ถ์์ผ๋ VisualBERT๋ ์ด๋ฏธ์ง ์ ๋ ฅ๊ณผ ํ ์คํธ ์ ๋ ฅ์ ๋ ๋ค ์์ฉํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์กฐ๊ธ ๋ค๋ฅธ ํ์ต ํ๋ก์์ ๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค. ๊ทธ๋์ ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์ง์ ์ด๋ฃจ๊ณ ์๋ ๋ฐ์ดํฐ์ธ COCO$($์ด๋ฏธ์ง์ ๋ ๋ฆฝ์ ์ธ 5๊ฐ์ ์บก์ ์ด ์ง์ ์ด๋ฃจ๊ณ ์์$)$ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ผ ํ๋ค. VisualBERT์ ํ์ต ํ๋ก์์ ๋ ๋ค์์ 3๊ฐ์ ํ์ด์ฆ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
Task-Agnostic Pre-Training ๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ COCO ๋ฐ์ดํฐ์ ์์ ๋ ๊ฐ์ visually-grounded language modeling ๋ชฉํ๋ฅผ ์ฌ์ฉํด์ ํ์ต์์ผฐ๋ค.
- ์ด๋ฏธ์ง์ MLM์ ์ ์ฉ. ํ ์คํธ ์ ๋ ฅ์ ์ผ๋ถ๋ถ์ด ๋ง์คํน๋๊ณ ์ด๋ฏธ์ง ๋ฐ์ด๋ฉ์ ํด๋นํ๋ ๋ฒกํฐ๋ ๋ง์คํน๋์ง ์์ ์ํ์์ ๋ง์คํน๋ ํ ์คํธ ์ ๋ ฅ์ ์์ธก
- Sentence-image ์์ธก. COCO ๋ฐ์ดํฐ์ ์ ๋ณด๋ฉด ํ๋์ ์ด๋ฏธ์ง์ ๋ํด ์ฌ๋ฌ ๊ฐ์ ์บก์ ์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ์ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ ์บก์ ์ผ๋ก ๊ตฌ์ฑ๋ text segment๋ฅผ ์ ๊ณตํด ์ฃผ์๋ค. ํ๋์ ์บก์ ์ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๋ ์บก์ ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ 50%์ ํ๋ฅ ๋ก ๋ค๋ฅธ ํด๋น ์บก์ ์ด๊ณ , 50%์ ํ๋ฅ ๋ก ๋ฌด์์ ์บก์ ์ด ์ฃผ์ด์ง๋ค. ๋ชจ๋ธ์ ์ด ๋ ๊ฐ์ ์บก์ ์ ๊ตฌ๋ถํ๊ธฐ ์ํด ํ์ต๋๋ค.
Task-Specific Pre-Training VisualBERT๋ฅผ downstream task์ ๋ํด fine-tuningํ๊ธฐ ์ ์ ์ด๋ฏธ์ง ๋ชฉํ์ MLM์ ์ฌ์ฉํ์ฌ task์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ด ์ข๋ค๋ ๊ฒ์ ์์๋ด์๋ค. ์ด ์คํ ์ ๋ชจ๋ธ์ด ์๋ก์ด ํ๊น ๋๋ฉ์ธ์ ์ ์ฉ๋๊ฒ ํด ์ค๋ค.
Fine-Tuning ์ด ์คํ ์ BERT์ fine-tuning ๋จ๊ณ๋ฅผ ๋ชจ๋ฐฉํ์๋ค. ์ฌ๊ธฐ์ task-specificํ ์ ๋ ฅ, ์ถ๋ ฅ, ๋ชฉํ๋ค์ด ์๊ฐ๋๊ณ Transformer๋ task์ ๋ํ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ํ์ต๋๋ค.
3. Experiments
๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ ์ฌ์ฉํ์ฌ 4๊ฐ์ ์๋ก ๋ค๋ฅธ vision-language ์์ฉ์ ์ ์ฉํด ๋ณด์๋ค: VQA, VCR, NLVR, Flickr30K. VIsualBERT๋ฅผ pre-trainํ ๋ COCO ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๊ณ , Transformer encoder๋ ๋ชจ๋ BERT_BASE ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค. ํ๋ผ๋ฏธํฐ๋ค ๋ํ pre-trained BERT_BASE model๊ณผ ๋๊ฐ์ด ์ด๊ธฐํํ์๋ค.
image representation์ ์ํด, ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์์ ์๋ก ๋ค๋ฅธ object detector์ ์ฌ์ฉํ์๋ค. ์ด๋ค์ ๋น๊ตํ๊ธฐ ์ํด ์ด๋ค์ ์ธํ ์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ ์๋ก ๋ค๋ฅธ image feature๊ฐ ์๋ก ๋ค๋ฅธ task์ ์ฌ์ฉ๋์๋ค. ์ผ๊ด์ฑ์ ์ํด COCO์์ task-agnostic pre-training ๋์ค์ end task์ ๋๊ฐ์ image feature์ ์ฌ์ฉํ์๋ค. ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ ผ๋ฌธ์์๋ 3๊ฐ์ ๋ณํ ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค.
- VisualBERT: COCO ๋ฐ์ดํฐ์ ์์ pre-training์ ํ๊ณ , task data์ ๋ํด์๋ pre-training์ ํ๊ณ , task์ ๋ํด fine-tuningํ BERT๋ก๋ถํฐ ๋์จ ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ฅผ ์ฌ์ฉํ ์ ์ฒด ๋ชจ๋ธ
- VIsualBERT w/o Early Fusion: ์ด๊ธฐ์ Transformer layer์์ image representation๊ณผ text๊ฐ ์์ด์ง ์๊ณ ๋ง์ง๋ง Transformer layer์์ ์์ด๊ฒ ๋๋ค. ์ด๋ language์ visual ๊ฐ์ ์ํธ์์ฉ์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๊ฒ์ฌํ ์ ์๋ค.
- VisualBERT w/o Pre-training: COCO ๋ฐ์ดํฐ์ ์์ ํ๋ task-agnostic pre-training์ ๊ฑด๋๋ด VisualBERT์ด๋ค.
์ด๋ ๊ฒ ํด์ VisualBERT์ Experiments๋ฅผ ์งํํ์๋ค. ์ด 4๊ฐ์ task์ ๋ํด์ ์คํ์ ์งํํ์์ผ๋ ๊ทธ ๋ชจ๋ ๊ฑธ ๋ค๋ฃจ์ง๋ ์๊ณ ์ด์ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ ํฅ์์ ๋ณด์ธ NLVR๊ณผ Flickr30K task์ ๋ํด์๋ง ์์๋ณด๋๋ก ํ๊ฒ ๋ค.
NLVR
NLVR์ ์์ฐ์ด์ ์ด๋ฏธ์ง์ ๋ํด ํจ๊ป ์ถ๋ก ํ๋ ๋ฐ์ดํฐ์ ์ด๋ค. ์ด task๋ ์ด๋ฏธ์ง ์ง์ ๋ํด ์์ฐ์ด ์บก์ ์ด ์ฐธ์ธ์ง๋ฅผ ๊ฒฐ์ ํ๋ task์ด๋ค. ๋ ผ๋ฌธ์์๋ VisualBERT์ embedding ๋ฉ์ปค๋์ฆ์ ์๋ด์ ์๋ก ๋ค๋ฅธ segment embedding์ ์ฌ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง๋ก๋ถํฐ feature์ ํ ๋นํ๋๋ก ํ์๋ค. NLVR์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 3์ ๋ํ๋์๋ค. VIsualBERT w/o Early Fusion๊ณผ VisualBERT w/o COCO Pre-training์ ์ด์ ์ best model์ธ MaxEnt๋ฅผ ๋ฅ๊ฐํ์๊ณ , VisualBERT๋ ํฐ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
Flickr30K Entities
Flickr30K Entities ๋ฐ์ดํฐ์ ์์คํ ์ด ์ด๋ฏธ์ง์ ๊ฒฝ๊ณ ์์ญ์ ๋ํ ์บก์ ์ ๋ฌธ๊ตฌ๋ฅผ ์ ์งํ๋ ๊ธฐ๋ฅ์ ํ ์คํธํ๋ค. ์ด task๋ ๋ฌธ์ฅ์ผ๋ก๋ถํฐ span์ด ์ฃผ์ด์ง๋ฉด ํด๋นํ๋ ๋ฐ์ด๋ฉ ์์ญ์ ์ ํํ๋ task์ด๋ค. Visual Genome์์ ์ฌ์ ํ๋ จ๋ Faster R-CNN์ ์ด๋ฏธ์ง ๊ธฐ๋ฅ์ด ์ฌ์ฉ๋์๊ณ , task๋ณ fine-tuning์ ์ํด ์ถ๊ฐ์ ์ผ๋ก self-attention ๋ธ๋ก์ด ๋์ ๋๊ณ ๊ฐ head์ ํ๊ท attention ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ค์ ์บก์ ์ฌ์ด์ ์ ๋ ฌ์ ์์ธกํ๋ค.
VisualBERT๋ ํ์ฌ์ SoTA ๋ชจ๋ธ์ธ BAN์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด ์ธํ ์์๋ ablation model๊ณผ baseline๊ณผ์ ์ฐจ์ด๋ ๊ทธ๋ฆฌ ํฌ์ง ์์๋ค. ๋ฐ๋ผ์, ์ด task์ ๋ํด์๋ ์์ ๊ตฌ์กฐ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ์ป์ ์ ์์์ ์ ์ ์์๋ค.
4. Analysis
์ด ์น์ ์์๋ ์ด๋ ํ ๋ฐฉ๋ฒ์ด VisualBERT๊ฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก ๋์์ฃผ๋์ง ablation study๋ฅผ ํตํด ์์๋ณด์๋ค$($4-1$)$. ๊ทธ๋ค์์ VisualBERT๊ฐ ์ด๋ป๊ฒ ์ฌ๋ฌ ๊ฐ์ Transformer layer๋ก ๋ชจํธํ grounding์ ํด๊ฒฐํ ์ ์๋์ง์ ๋ํ qualitative analysis๋ฅผ ์์๋ณด์๋ค$($4-2$)$.
4-1. Ablation Study
๋ ผ๋ฌธ์์๋ Experiment์์ ์์๋ดค๋ 2๊ฐ์ ablation model์ ํฌํจํ ์ด 4๊ฐ์ VisualBERT ๋ณํ์ผ๋ก NLVR์์ ablation study๋ฅผ ์งํํ์๋ค. ์ด๋ฌํ ๋ถ์์ ๋ชฉํ๋ VisualBERT์ 4๊ฐ์ ๋ณํ์ด ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ์กฐ์ฌํ๋ ค๋ ๊ฒ์ด๋ค.
- C1: Task-agnostic Pre-training. task-agnostic pre-training์ ํต์งธ๋ก ๊ฑด๋๋ฐ๊ณ $($VisualBERT w/o COCO Pre-training$)$, ์ด๋ฏธ์ง ์์ด ํ ์คํธ๋ง์ผ๋ก ํ์ต์ ํ์๋ค$($VisualBERT w/o Grounded Pre-training$)$. ๊ทธ ๊ฒฐ๊ณผ ๋ ๋ณํ ๋ชจ๋ ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๊ณ vision๊ณผ language ์ง ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ฒ์ด ์ค์ํจ์ ๋ณด์ฌ์คฌ๋ค.
- C2: Early Fusion. ์ด๋ฏธ์ง์ ํ ์คํธ feature์ ์ด๋ฅธ ์ํธ์์ฉ์ ์ค์์ฑ์ ์ ์ฆํ๊ธฐ ์ํด Experiment์์ ์๊ฐํ VisualBERT w/o Early Fusion์ ์ฌ์ฉํ์๋ค. ์ด๋ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ํธ์์ฉ์ด ๋งค์ฐ ์ค์ํจ์ ๋ณด์ฌ์คฌ๋ค.
- C3: BERT Initialization. BERT initialization์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด ๋๋ค ํ๊ฒ ์ด๊ธฐํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์๋ค. ํ์ง๋ง ๋ฑํ ํฐ ์ํฅ์ ๋ฐ์ง๋ ์์๋๋ฐ, ์ด๋ ์ด๋ฏธ ๋ชจ๋ธ์ด COCO pre-training ์ค์ grounded language์ ๋ํ ์ ์ฉํ ๊ฒ๋ค์ ํ์ตํ๊ธฐ ๋๋ฌธ์ด๋ค.
- C4: Sentence-image prediction objective. task-agnostic pre-training ์ค์ sentence-image prediction ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ง ์๋ ๋ชจ๋ธ์ ์ ์ํ์๋ค. ๊ทธ์ ๋ํ ๊ฒฐ๊ณผ๋ ์ด ๋ชฉํ๊ฐ ๊ธ์ ์ ์ด๊ธด ํ์ง๋ง ๋ค๋ฅธ ์์์ ๋นํด ์๋นํ ํจ๊ณผ๋ ์ ๋ค๊ณ ๋ณด์ฌ์คฌ๋ค.
์ ๋ฐ์ ์ผ๋ก ๊ฒฐ๊ณผ๋ค์ ๋ณด๋ฉด ๊ฐ์ฅ ์ค์ํ ๋์์ธ ์ ํ์ task-agnostic pre-training$($C1$)$์ early fusion of vision and language$($C2$)$์ด๋ค. pre-training์์๋ ์ถ๊ฐ COCO ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๊ณ ์ด๋ฏธ์ง์ ์บก์ ์ ๋ชจ๋ ์ฌ์ฉํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ค์ํ๋ค.
4-2. Qualitative Analysis
๋ง์ง๋ง์ผ๋ก, VisualBERT๊ฐ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ ์ด์ด๋ฅผ ์ง๋จ์ ๋ฐ๋ผ attention์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง์ ๋ํด ์์๋ฅผ ์ดํด๋ณด๋ฉด์ ์์๋ณด์๋ค. ์์ ๊ทธ๋ฆผ 1์์๋ ์ด ๊ณผ์ ์ด ๋ณด์ฌ์ง๊ณ ์๊ณ , ๋ค์์ ๊ทธ๋ฆผ 3$($์๋ ๋ ๋ง์ ์์๋ฅผ ํฌํจํ๊ณ ์์ผ๋ ํฌ์คํธ์ ๋ด๊ธฐ์๋ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ์ปค์ ํ๋๋ง ๊ฐ์ ธ์๋ค$)$๋ ์ด ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ ๋ฐ์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ VisualBERT๊ฐ ์ฐ์์ ์ธ Transformer ๋ ์ด์ด๋ฅผ ํตํด ์ ๋ ฌ์ ๊ตฌ์ฒดํํ๋ ๊ฒ์ผ๋ก ๋ณด์๋ค. ์๋ฅผ ๋ค์ด, ๊ทธ๋ฆผ 3์ ๋ณด๋ฉด, ์ฒ์์๋ 'woman' ๋ฐ์ด๋ฉ ์์ญ์ ํด๋นํ๋ ๋ถ๋ถ์ 'husband'์ 'woman' ๋ชจ๋ ๊ฐํ attention ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ์ ์ ์๋ค. ํ์ง๋ง ๊น์ ๋ ์ด์ด๋ก ๋์ด๊ฐ์๋ก VisualBERT๋ ์ฌ์ฑ๊ณผ ๋จ์ฑ์ ๊ตฌ๋ถํ๊ณ ์ด ๋์ ์๋ง๊ฒ ์ ๋ ฌํ๋ ๊ฒ์ ์ ์ ์๋ค. ๋ํ ๊ตฌ๋ฌธ ์ ๋ ฌ์ ๋ง์ ์๊ฐ ์๋๋ฐ, ์๋ฅผ ๋ค์ด ๊ฐ์ ์ด๋ฏธ์ง์์ 'teased'์ด๋ผ๋ ๋จ์ด๋ ๋จ์ฑ๊ณผ ์ฌ์ฑ ๋ชจ๋์๊ฒ ๋ง์ถฐ์ง๊ณ 'by'๋ ๋จ์์๊ฒ ๋ง์ถฐ์ง๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ฐ์ ์ด๋ฏธ์ง์์ her'๋ผ๋ ๋จ์ด๊ฐ ์ฌ์ฑ์ผ๋ก ํด๊ฒฐ๋จ์ ๋ฐ๋ผ ์ผ๋ถ ์ํธ ์ฐธ์กฐ๊ฐ ํด๊ฒฐ๋ ๊ฒ ๊ฐ๋ค.
์ถ์ฒ
https://arxiv.org/abs/1908.03557