The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ ๊ด๋ฒ์ํ vision-language task๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํ ๊ฐ๋จํ๊ณ ์ ์ฐํ ํ๋ ์์ํฌ์ธ VisualBERT๋ฅผ ์ ์ํ์๋ค. VisualBERT๋ self-attention์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ํ ์คํธ์ ์์ญ์ ์์๋ค์ ์ฐ๊ด๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก ์ ๋ ฌํ๋ Transformer layer์ ์คํ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ image caption ๋ฐ์ดํฐ์์ pre-training ์ํค๊ธฐ ์ํด ์ถ๊ฐ์ ์ผ๋ก ๋ ๊ฐ์ visually-grounded language model ๋ชฉํ๋ฅผ ์ ์ํ์๋ค. VQA, VCR, NLVR, Flickr30K ์ด๋ ๊ฒ 4๊ฐ์ vision-language task์ ์งํํ ์คํ์ VisualBERT๊ฐ ๊ฐ๋จํ๋ฉด์๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ฑฐ๋ ๋๋ก๋ SoTA๋ฅผ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค.
Table of Contents
1. Introduction
2. A Joint Representation Model for Vision & Language
2-1. Background
2-2. VisualBERT
2-3. Training VisualBERT
3. Experiments
4. Analysis
4-1. Ablation Study
4-2. Qualitative Analysis
1. Introduction
vision๊ณผ language๋ฅผ ํผํฉํ task๋ ์๊ฐ ์ ๋ณด ์์คํ ์ ์ถ๋ฆฌ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ข์ test-bed๋ก ์ฌ๊ฒจ์ง๋ค. ์๋ํ๋ฉด ์ด task๋ฅผ ์งํํ๋ฉด์ ์์คํ ์ ์ฌ๋ฌผ, ํน์ง, ๋ถ๋ถ, ๊ณต๊ฐ์ ๊ด๊ณ, ํ๋๊ณผ ๋ชฉ์ ๋ฑ์ ์ด๋ฌํ ์ด๋ป๊ฒ ์์ฐ์ด๋ก ์ฐธ์กฐ๋๊ณ ๊ธฐ๋ฐ์ด ๋๋์ง ๊ด๋ฒ์ํ ๋ํ ์ผ์ ์๋ฏธ๋ฅผ ์ดํดํด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง์ ์ฐ๊ด๋ ํ ์คํธ์์ ํ๋ถํ ์๋ฏธ๋ฅผ ์บก์ฒํ๊ธฐ ์ํด ๋์์ธ๋ ๊ฐ๋จํ๊ณ ์ ์ฐํ ๋ชจ๋ธ์ธ VisualBERT๋ฅผ ์ ์ํ์๋ค. VisualBERT๋ BERT์ Faster-RCNN์ ํตํฉ์์ผฐ์ผ๋ฉฐ ๋ค์ํ vision-and-language task์ ์ ์ฉ๋ ์ ์๋ค. ํนํ, ๊ฐ์ฒด ํ์ง์์ ๋ฝ์๋ธ image feature๋ ์์๊ฐ ์๋ ํ ํฐ์ผ๋ก ๋ค๋ค์ ธ์ text์ ํจ๊ป VisualBERT๋ก ๋ค์ด๊ฐ๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ ๋ ฅ ํ ์คํธ์ ์ด๋ฏธ์ง๋ VisualBERT์ ์ฌ๋ฌ ๊ฐ์ Transformer layer์ ์ฌ์ฉํ์ฌ ํจ๊ป ์ฒ๋ฆฌ๋๋ค$($๊ทธ๋ฆผ 2. ์ฐธ๊ณ $)$. ๋จ์ด์ ์ด๋ฏธ์ง ๊ฐ์ฒด ๊ฐ์ ํ๋ถํ ์ํธ์์ฉ์ ๋ชจ๋ธ์ด ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ๋ณต์กํ ์ฐ๊ด์ฑ์ ์บก์ฒํ๋๋ก ํด์ค๋ค.
BERT์ ์ ์ฌํ๊ฒ, VisualBERT๋ฅผ ์ธ๋ถ ์์ค์์ pre-training ์ํค๋ ๊ฒ์ downstream ์์ฉ์ ์ด์ต์ ๊ฐ์ ธ๋ค ์ค๋ค. ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ฐ๊ด์ฑ์ ํ์ต์ํค๊ธฐ ์ํด, VisualBERT๋ฅผ ์ด๋ฏธ์ง์ ๋ํ ์ผํ ์๋ฏธ๊ฐ ์์ฐ์ด๋ก ํํ๋์ด ์๋ image caption ๋ฐ์ดํฐ์์ pre-training ํ๊ณ ์ ํ์๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ pre-training์ ์ํ ๋ ๊ฐ์ visually-grounded language modeling ๋ชฉํ๋ฅผ ์ ์ํ์๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก image caption ๋ฐ์ดํฐ์์ pre-training์ ํ๋ ๊ฒ์ด ์ ํ ๊ฐ๋ฅํ text์ visual representation์ ํ์ตํ๊ธฐ ์ํ VisualBERT์ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
- text์ ์ผ๋ถ๋ถ์ด ๋ง์คํน๋๊ณ ๋จ์ text์ visual context๋ฅผ ์ฌ์ฉํด์ masked word๋ฅผ ์์ธก
- ์ ๊ณต๋ text์ image๊ฐ ์ผ์นํ๋์ง ํ๋จํ๋๋ก ํ์ฌ ํ์ต
์์ paper overview์์ ์ธ๊ธํ๋ ๊ฒ์ฒ๋ผ VisualBERT๋ VQA, VCR, NLVR, Flickr30K task์ ๋ํด ์คํ์ ์งํํ์๊ณ , ๊ทธ ๊ฒฐ๊ณผ VisualBERT๋ ์ด์ ์ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ VisualBERT์ ์ด๋ค ๋ถ๋ถ์ด ์ข์ ์ฑ๋ฅ์ ๋์ด๋ด๋์ง๋ฅผ ablation study๋ฅผ ํตํด ๋ฐํ๋๋ค. ๋ ผ๋ฌธ์์๋ pre-training์ ํตํด VisualBERT๋ entity๋ฅผ groundํ๊ณ ๋จ์ด์ ์ด๋ฏธ์ง ์์ญ ๊ฐ์ ํน์ ์ข ์์ฑ ๊ด๊ณ๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ์๋ค๊ณ ํ์๋ค. ์ด๋ ์ด๋ฏธ์ง์ ์์ธํ ์๋ฏธ ์ฒด๊ณ์ ๋ํ ๋ชจ๋ธ์ ์ดํด๋ฅผ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ๋ค$($๊ทธ๋ฆผ 1. ์ฐธ๊ณ $)$.
2. A Joint Representation Model for Vision and Language
์ด ์น์ ์์๋ vision๊ณผ language์ ๋ํด ๊ณต๋ ์ํฉํ๋ representation์ ํ์ตํ๊ธฐ ์ํ ๋ชจ๋ธ์ธ VisualBERT์ ๋ํด์ ์๊ฐํ๋๋ก ํ๊ฒ ๋ค. BERT์ background์ ๋ํด์๋ ๋ฐ๋ก ์์๋ณด์ง ์๊ณ ์ด๋ป๊ฒ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๋์ง์ ๋ํ ์์ฝ$($2-2$)$์ ํ์ต ํ๋ก์์ $($2-3$)$์ ๋ํด์ ์ค๋ช ํ๋๋ก ํ๊ฒ ๋ค.
2-1. Background
๋ ผ๋ฌธ์์ ์ ์ํ VisualBERT๋ ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด BERT๊ฐ ๊ธฐ๋ฐ์ด ๋๋ ๋ชจ๋ธ์ด๋ค. ๋ฐ๋ผ์ BERT์ ๋ํ ์ดํด๊ฐ ํ์ํ๋ฐ ๋ณธ ํฌ์คํธ์์๋ ๋ฐ๋ก ๋ค๋ฃจ์ง ์๊ณ BERT์ ๊ดํ ํฌ์คํธ๋ฅผ ๋ฌ์๋๋๋ก ํ๊ฒ ๋ค. VisualBERT๋ฅผ ์ดํดํ๋๋ฐ ๊ผญ ํ์ํ ๋ถ๋ถ์ด๋ ๋ถ์กฑํ๋ค ์ถ์ผ๋ฉด ํ ๋ฒ ํ์ธํด๋ณด๊ธธ ๋ฐ๋๋ค.
BERT ์ค๋ช ํฌ์คํธ: https://cartinoe5930.tistory.com/entry/Pre-trained-Language-Modeling-paper-reading2-BERT-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding
Pre-trained Language Modeling paper reading(2) - BERT: Pre-training of Deep Bidirectional Transformers for Language Understandin
Pre-trained Language Modeling paper reading ์์ฆ NLP ๋ถ์ผ์์ ๋จ๊ฑฐ์ด ๊ฐ์์ธ pre-trained Language Modeling์ ๊ดํ ์ ๋ช ํ ๋ ผ๋ฌธ๋ค์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ์๋ค. ์ด Pre-trained Language Modeling paper reading์ ์ด ํฌ์คํธ๋ง์ผ๋ก ๋
cartinoe5930.tistory.com
2-2. VisualBERT
VisualBERT์ ํต์ฌ ์์ด๋์ด๋ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์์ญ๊ณผ ์ ๋ ฅ ํ ์คํธ์ ์์๋ฅผ ์ ๋ ฌํ๊ธฐ ์ํด Transformer ๋ด๋ถ์์ self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ BERT์ ๋ชจ๋ ๊ตฌ์ฑ ์์ ์ธ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ์ผ๋ จ์ ์๊ฐ์ ์๋ฒ ๋ฉ $F$๋ฅผ ๋์ ํ์๋ค. ๊ฐ๊ฐ์ $f \in F$๋ ๊ฐ์ฒด ํ์ง๊ธฐ๋ก๋ถํฐ ์ป์ด์ง ์ด๋ฏธ์ง์์์ ๋ฐ์ด๋ฉ ์์ญ์ ํด๋น๋๋ค.
$F$์ ๊ฐ๊ฐ์ ์๋ฒ ๋ฉ์ 3๊ฐ์ ์๋ฒ ๋ฉ์ ํฉ์ผ๋ก ๊ณ์ฐ๋๋ค.
- $f_{o}$: $f$์ ๋ฐ์ด๋ฉ ์์ญ์ visual feature representation. CNN์ผ๋ก ๊ณ์ฐ๋จ.
- $f_{s}$: ํ ์คํธ ์๋ฒ ๋ฉ์ด ์๋๋ผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ด๋ผ๋ ๊ฒ์ ๋ํ๋.
- $f_{p}$: position embedding. ๋จ์ด์ ๋ฐ์ด๋ฉ ์์ญ ์ฌ์ด์ ์ ๋ ฌ์ด ์ ๋ ฅ์ ์ผ๋ถ๋ก ์ ๊ณต๋๊ณ ์ ๋ ฌ๋ ๋จ์ด์ ํด๋นํ๋ position embedding์ ํฉ์ผ๋ก ์ค์ ๋ ๋ ์ฌ์ฉ๋จ.
์ด๋ ๊ฒ ์ป์ด์ง visual embedding์ text embedding์ ๊ธฐ๋ณธ ์ธํธ์ ํจ๊ป multi-layer Transformer๋ก ๋ค์ด๊ฐ๊ณ , ๋ชจ๋ธ์ด ์ด ๋ ๊ฐ์ ์ ๋ ฅ ์ธํธ์์ ์ ์ฉํ ์ ๋ ฌ์ ๋ฐ๊ฒฌํ ์ ์๊ฒ ํด ์ฃผ๊ณ , ์๋ก์ด ๊ณต๋ representation์ ๋ง๋ค๊ฒ ํด ์ค๋ค.
2-3. Training VisualBERT
๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ ํ์ต์ํฌ ๋ BERT์ ์ ์ฌํ ํ์ต ํ๋ก์์ ๋ฅผ ์ฌ์ฉํ๊ณ ์ถ์์ผ๋ VisualBERT๋ ์ด๋ฏธ์ง ์ ๋ ฅ๊ณผ ํ ์คํธ ์ ๋ ฅ์ ๋ ๋ค ์์ฉํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์กฐ๊ธ ๋ค๋ฅธ ํ์ต ํ๋ก์์ ๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค. ๊ทธ๋์ ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์ง์ ์ด๋ฃจ๊ณ ์๋ ๋ฐ์ดํฐ์ธ COCO$($์ด๋ฏธ์ง์ ๋ ๋ฆฝ์ ์ธ 5๊ฐ์ ์บก์ ์ด ์ง์ ์ด๋ฃจ๊ณ ์์$)$ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ผ ํ๋ค. VisualBERT์ ํ์ต ํ๋ก์์ ๋ ๋ค์์ 3๊ฐ์ ํ์ด์ฆ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
Task-Agnostic Pre-Training ๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ COCO ๋ฐ์ดํฐ์ ์์ ๋ ๊ฐ์ visually-grounded language modeling ๋ชฉํ๋ฅผ ์ฌ์ฉํด์ ํ์ต์์ผฐ๋ค.
- ์ด๋ฏธ์ง์ MLM์ ์ ์ฉ. ํ ์คํธ ์ ๋ ฅ์ ์ผ๋ถ๋ถ์ด ๋ง์คํน๋๊ณ ์ด๋ฏธ์ง ๋ฐ์ด๋ฉ์ ํด๋นํ๋ ๋ฒกํฐ๋ ๋ง์คํน๋์ง ์์ ์ํ์์ ๋ง์คํน๋ ํ ์คํธ ์ ๋ ฅ์ ์์ธก
- Sentence-image ์์ธก. COCO ๋ฐ์ดํฐ์ ์ ๋ณด๋ฉด ํ๋์ ์ด๋ฏธ์ง์ ๋ํด ์ฌ๋ฌ ๊ฐ์ ์บก์ ์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ์ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ ์บก์ ์ผ๋ก ๊ตฌ์ฑ๋ text segment๋ฅผ ์ ๊ณตํด ์ฃผ์๋ค. ํ๋์ ์บก์ ์ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๋ ์บก์ ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ 50%์ ํ๋ฅ ๋ก ๋ค๋ฅธ ํด๋น ์บก์ ์ด๊ณ , 50%์ ํ๋ฅ ๋ก ๋ฌด์์ ์บก์ ์ด ์ฃผ์ด์ง๋ค. ๋ชจ๋ธ์ ์ด ๋ ๊ฐ์ ์บก์ ์ ๊ตฌ๋ถํ๊ธฐ ์ํด ํ์ต๋๋ค.
Task-Specific Pre-Training VisualBERT๋ฅผ downstream task์ ๋ํด fine-tuningํ๊ธฐ ์ ์ ์ด๋ฏธ์ง ๋ชฉํ์ MLM์ ์ฌ์ฉํ์ฌ task์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ด ์ข๋ค๋ ๊ฒ์ ์์๋ด์๋ค. ์ด ์คํ ์ ๋ชจ๋ธ์ด ์๋ก์ด ํ๊น ๋๋ฉ์ธ์ ์ ์ฉ๋๊ฒ ํด ์ค๋ค.
Fine-Tuning ์ด ์คํ ์ BERT์ fine-tuning ๋จ๊ณ๋ฅผ ๋ชจ๋ฐฉํ์๋ค. ์ฌ๊ธฐ์ task-specificํ ์ ๋ ฅ, ์ถ๋ ฅ, ๋ชฉํ๋ค์ด ์๊ฐ๋๊ณ Transformer๋ task์ ๋ํ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ํ์ต๋๋ค.
3. Experiments
๋ ผ๋ฌธ์์๋ VisualBERT๋ฅผ ์ฌ์ฉํ์ฌ 4๊ฐ์ ์๋ก ๋ค๋ฅธ vision-language ์์ฉ์ ์ ์ฉํด ๋ณด์๋ค: VQA, VCR, NLVR, Flickr30K. VIsualBERT๋ฅผ pre-trainํ ๋ COCO ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๊ณ , Transformer encoder๋ ๋ชจ๋ BERT_BASE ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค. ํ๋ผ๋ฏธํฐ๋ค ๋ํ pre-trained BERT_BASE model๊ณผ ๋๊ฐ์ด ์ด๊ธฐํํ์๋ค.
image representation์ ์ํด, ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์์ ์๋ก ๋ค๋ฅธ object detector์ ์ฌ์ฉํ์๋ค. ์ด๋ค์ ๋น๊ตํ๊ธฐ ์ํด ์ด๋ค์ ์ธํ ์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ ์๋ก ๋ค๋ฅธ image feature๊ฐ ์๋ก ๋ค๋ฅธ task์ ์ฌ์ฉ๋์๋ค. ์ผ๊ด์ฑ์ ์ํด COCO์์ task-agnostic pre-training ๋์ค์ end task์ ๋๊ฐ์ image feature์ ์ฌ์ฉํ์๋ค. ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ ผ๋ฌธ์์๋ 3๊ฐ์ ๋ณํ ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค.
- VisualBERT: COCO ๋ฐ์ดํฐ์ ์์ pre-training์ ํ๊ณ , task data์ ๋ํด์๋ pre-training์ ํ๊ณ , task์ ๋ํด fine-tuningํ BERT๋ก๋ถํฐ ๋์จ ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ฅผ ์ฌ์ฉํ ์ ์ฒด ๋ชจ๋ธ
- VIsualBERT w/o Early Fusion: ์ด๊ธฐ์ Transformer layer์์ image representation๊ณผ text๊ฐ ์์ด์ง ์๊ณ ๋ง์ง๋ง Transformer layer์์ ์์ด๊ฒ ๋๋ค. ์ด๋ language์ visual ๊ฐ์ ์ํธ์์ฉ์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๊ฒ์ฌํ ์ ์๋ค.
- VisualBERT w/o Pre-training: COCO ๋ฐ์ดํฐ์ ์์ ํ๋ task-agnostic pre-training์ ๊ฑด๋๋ด VisualBERT์ด๋ค.
์ด๋ ๊ฒ ํด์ VisualBERT์ Experiments๋ฅผ ์งํํ์๋ค. ์ด 4๊ฐ์ task์ ๋ํด์ ์คํ์ ์งํํ์์ผ๋ ๊ทธ ๋ชจ๋ ๊ฑธ ๋ค๋ฃจ์ง๋ ์๊ณ ์ด์ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ ํฅ์์ ๋ณด์ธ NLVR๊ณผ Flickr30K task์ ๋ํด์๋ง ์์๋ณด๋๋ก ํ๊ฒ ๋ค.
NLVR
NLVR์ ์์ฐ์ด์ ์ด๋ฏธ์ง์ ๋ํด ํจ๊ป ์ถ๋ก ํ๋ ๋ฐ์ดํฐ์ ์ด๋ค. ์ด task๋ ์ด๋ฏธ์ง ์ง์ ๋ํด ์์ฐ์ด ์บก์ ์ด ์ฐธ์ธ์ง๋ฅผ ๊ฒฐ์ ํ๋ task์ด๋ค. ๋ ผ๋ฌธ์์๋ VisualBERT์ embedding ๋ฉ์ปค๋์ฆ์ ์๋ด์ ์๋ก ๋ค๋ฅธ segment embedding์ ์ฌ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง๋ก๋ถํฐ feature์ ํ ๋นํ๋๋ก ํ์๋ค. NLVR์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 3์ ๋ํ๋์๋ค. VIsualBERT w/o Early Fusion๊ณผ VisualBERT w/o COCO Pre-training์ ์ด์ ์ best model์ธ MaxEnt๋ฅผ ๋ฅ๊ฐํ์๊ณ , VisualBERT๋ ํฐ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
Flickr30K Entities
Flickr30K Entities ๋ฐ์ดํฐ์ ์์คํ ์ด ์ด๋ฏธ์ง์ ๊ฒฝ๊ณ ์์ญ์ ๋ํ ์บก์ ์ ๋ฌธ๊ตฌ๋ฅผ ์ ์งํ๋ ๊ธฐ๋ฅ์ ํ ์คํธํ๋ค. ์ด task๋ ๋ฌธ์ฅ์ผ๋ก๋ถํฐ span์ด ์ฃผ์ด์ง๋ฉด ํด๋นํ๋ ๋ฐ์ด๋ฉ ์์ญ์ ์ ํํ๋ task์ด๋ค. Visual Genome์์ ์ฌ์ ํ๋ จ๋ Faster R-CNN์ ์ด๋ฏธ์ง ๊ธฐ๋ฅ์ด ์ฌ์ฉ๋์๊ณ , task๋ณ fine-tuning์ ์ํด ์ถ๊ฐ์ ์ผ๋ก self-attention ๋ธ๋ก์ด ๋์ ๋๊ณ ๊ฐ head์ ํ๊ท attention ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ค์ ์บก์ ์ฌ์ด์ ์ ๋ ฌ์ ์์ธกํ๋ค.
VisualBERT๋ ํ์ฌ์ SoTA ๋ชจ๋ธ์ธ BAN์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด ์ธํ ์์๋ ablation model๊ณผ baseline๊ณผ์ ์ฐจ์ด๋ ๊ทธ๋ฆฌ ํฌ์ง ์์๋ค. ๋ฐ๋ผ์, ์ด task์ ๋ํด์๋ ์์ ๊ตฌ์กฐ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ์ป์ ์ ์์์ ์ ์ ์์๋ค.
4. Analysis
์ด ์น์ ์์๋ ์ด๋ ํ ๋ฐฉ๋ฒ์ด VisualBERT๊ฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก ๋์์ฃผ๋์ง ablation study๋ฅผ ํตํด ์์๋ณด์๋ค$($4-1$)$. ๊ทธ๋ค์์ VisualBERT๊ฐ ์ด๋ป๊ฒ ์ฌ๋ฌ ๊ฐ์ Transformer layer๋ก ๋ชจํธํ grounding์ ํด๊ฒฐํ ์ ์๋์ง์ ๋ํ qualitative analysis๋ฅผ ์์๋ณด์๋ค$($4-2$)$.
4-1. Ablation Study
๋ ผ๋ฌธ์์๋ Experiment์์ ์์๋ดค๋ 2๊ฐ์ ablation model์ ํฌํจํ ์ด 4๊ฐ์ VisualBERT ๋ณํ์ผ๋ก NLVR์์ ablation study๋ฅผ ์งํํ์๋ค. ์ด๋ฌํ ๋ถ์์ ๋ชฉํ๋ VisualBERT์ 4๊ฐ์ ๋ณํ์ด ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ์กฐ์ฌํ๋ ค๋ ๊ฒ์ด๋ค.
- C1: Task-agnostic Pre-training. task-agnostic pre-training์ ํต์งธ๋ก ๊ฑด๋๋ฐ๊ณ $($VisualBERT w/o COCO Pre-training$)$, ์ด๋ฏธ์ง ์์ด ํ ์คํธ๋ง์ผ๋ก ํ์ต์ ํ์๋ค$($VisualBERT w/o Grounded Pre-training$)$. ๊ทธ ๊ฒฐ๊ณผ ๋ ๋ณํ ๋ชจ๋ ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๊ณ vision๊ณผ language ์ง ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ฒ์ด ์ค์ํจ์ ๋ณด์ฌ์คฌ๋ค.
- C2: Early Fusion. ์ด๋ฏธ์ง์ ํ ์คํธ feature์ ์ด๋ฅธ ์ํธ์์ฉ์ ์ค์์ฑ์ ์ ์ฆํ๊ธฐ ์ํด Experiment์์ ์๊ฐํ VisualBERT w/o Early Fusion์ ์ฌ์ฉํ์๋ค. ์ด๋ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ํธ์์ฉ์ด ๋งค์ฐ ์ค์ํจ์ ๋ณด์ฌ์คฌ๋ค.
- C3: BERT Initialization. BERT initialization์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด ๋๋ค ํ๊ฒ ์ด๊ธฐํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์๋ค. ํ์ง๋ง ๋ฑํ ํฐ ์ํฅ์ ๋ฐ์ง๋ ์์๋๋ฐ, ์ด๋ ์ด๋ฏธ ๋ชจ๋ธ์ด COCO pre-training ์ค์ grounded language์ ๋ํ ์ ์ฉํ ๊ฒ๋ค์ ํ์ตํ๊ธฐ ๋๋ฌธ์ด๋ค.
- C4: Sentence-image prediction objective. task-agnostic pre-training ์ค์ sentence-image prediction ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ง ์๋ ๋ชจ๋ธ์ ์ ์ํ์๋ค. ๊ทธ์ ๋ํ ๊ฒฐ๊ณผ๋ ์ด ๋ชฉํ๊ฐ ๊ธ์ ์ ์ด๊ธด ํ์ง๋ง ๋ค๋ฅธ ์์์ ๋นํด ์๋นํ ํจ๊ณผ๋ ์ ๋ค๊ณ ๋ณด์ฌ์คฌ๋ค.
์ ๋ฐ์ ์ผ๋ก ๊ฒฐ๊ณผ๋ค์ ๋ณด๋ฉด ๊ฐ์ฅ ์ค์ํ ๋์์ธ ์ ํ์ task-agnostic pre-training$($C1$)$์ early fusion of vision and language$($C2$)$์ด๋ค. pre-training์์๋ ์ถ๊ฐ COCO ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๊ณ ์ด๋ฏธ์ง์ ์บก์ ์ ๋ชจ๋ ์ฌ์ฉํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ค์ํ๋ค.
4-2. Qualitative Analysis
๋ง์ง๋ง์ผ๋ก, VisualBERT๊ฐ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ ์ด์ด๋ฅผ ์ง๋จ์ ๋ฐ๋ผ attention์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง์ ๋ํด ์์๋ฅผ ์ดํด๋ณด๋ฉด์ ์์๋ณด์๋ค. ์์ ๊ทธ๋ฆผ 1์์๋ ์ด ๊ณผ์ ์ด ๋ณด์ฌ์ง๊ณ ์๊ณ , ๋ค์์ ๊ทธ๋ฆผ 3$($์๋ ๋ ๋ง์ ์์๋ฅผ ํฌํจํ๊ณ ์์ผ๋ ํฌ์คํธ์ ๋ด๊ธฐ์๋ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ์ปค์ ํ๋๋ง ๊ฐ์ ธ์๋ค$)$๋ ์ด ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ ๋ฐ์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ VisualBERT๊ฐ ์ฐ์์ ์ธ Transformer ๋ ์ด์ด๋ฅผ ํตํด ์ ๋ ฌ์ ๊ตฌ์ฒดํํ๋ ๊ฒ์ผ๋ก ๋ณด์๋ค. ์๋ฅผ ๋ค์ด, ๊ทธ๋ฆผ 3์ ๋ณด๋ฉด, ์ฒ์์๋ 'woman' ๋ฐ์ด๋ฉ ์์ญ์ ํด๋นํ๋ ๋ถ๋ถ์ 'husband'์ 'woman' ๋ชจ๋ ๊ฐํ attention ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ์ ์ ์๋ค. ํ์ง๋ง ๊น์ ๋ ์ด์ด๋ก ๋์ด๊ฐ์๋ก VisualBERT๋ ์ฌ์ฑ๊ณผ ๋จ์ฑ์ ๊ตฌ๋ถํ๊ณ ์ด ๋์ ์๋ง๊ฒ ์ ๋ ฌํ๋ ๊ฒ์ ์ ์ ์๋ค. ๋ํ ๊ตฌ๋ฌธ ์ ๋ ฌ์ ๋ง์ ์๊ฐ ์๋๋ฐ, ์๋ฅผ ๋ค์ด ๊ฐ์ ์ด๋ฏธ์ง์์ 'teased'์ด๋ผ๋ ๋จ์ด๋ ๋จ์ฑ๊ณผ ์ฌ์ฑ ๋ชจ๋์๊ฒ ๋ง์ถฐ์ง๊ณ 'by'๋ ๋จ์์๊ฒ ๋ง์ถฐ์ง๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ฐ์ ์ด๋ฏธ์ง์์ her'๋ผ๋ ๋จ์ด๊ฐ ์ฌ์ฑ์ผ๋ก ํด๊ฒฐ๋จ์ ๋ฐ๋ผ ์ผ๋ถ ์ํธ ์ฐธ์กฐ๊ฐ ํด๊ฒฐ๋ ๊ฒ ๊ฐ๋ค.
์ถ์ฒ
https://arxiv.org/abs/1908.03557
VisualBERT: A Simple and Performant Baseline for Vision and Language
We propose VisualBERT, a simple and flexible framework for modeling a broad range of vision-and-language tasks. VisualBERT consists of a stack of Transformer layers that implicitly align elements of an input text and regions in an associated input image wi
arxiv.org