The overview of this paper
๋
ผ๋ฌธ์์๋ Visual-Linguistic BERT$($VL-BERT$)$๋ผ ๋ถ๋ฆฌ๋ visual-linguistic task๋ฅผ ์ํ ์๋ก์ด pre-train ๊ฐ๋ฅํ ํฌ๊ด์ ์ธ representation์ ์๊ฐํ์๋ค. VL-BERT๋ ๊ฐ๋จํ์ง๋ง ๊ฐ๋ ฅํ Transformer model์ backbone์ผ๋ก ์ฌ์ฉํ์ฌ ์๊ฐ์ ๋ฐ ์ธ์ด์ embedded feature์ ์
๋ ฅ์ผ๋ก ๋ฐ์์ ํ์ฅํ๋ ๋ชจ๋ธ์ ์ฑํํ์๋ค. ์
๋ ฅ๊ฐ์ segment๋ก๋ถํฐ ๋์จ word์ input ์ด๋ฏธ์ง๋ก๋ถํฐ ๋์จ RoI feature์ด๋ค. VL-BERT๋ ๋์ฑ ํฌ๊ด์ ์ธ representation์ ์ฌ์ฉํ๊ธฐ ์ํด ๋๊ท๋ชจ์ Conceptual Captions ๋ฐ์ดํฐ์
๊ณผ text-only corpus๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ pre-train ๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ VL-BERT๋ VCR ๋ฒค์น๋งํฌ์์ SoTA๋ฅผ ๋ฌ์ฑํ ์ ์์๋ค.
Table of Contents
1. Introduction
2. VL-BERT
2-1. BERT
2-2. Model Architecture
2-3. Pre-training VL-BERT
2-4. Fine-tuning VL-BERT
3. Experiment
3-1. Pre-training
3-2. Fine-tuning on Downstream Task
4. Ablation Study
1. Introduction
๋ค์ํ task์ ๋ํด์ ๊ฐ task์ ๋ํด ํฌ๊ด์ ์ธ feature representation์ pre-training ํจ์ผ๋ก์จ ๋ค์ํ deep network๋ ์ฑ๊ณต์ ์ธ performance๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด์ ๊ฐ์ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ image & language task ๋ ๋ถ์ผ ๋ชจ๋์์ ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
๋ฐ๋ฉด์ vision๊ณผ language์ ๊ต์ฐจ์ ๊ดํ task์ ๋ํด์๋ pre-trained feature representation์ ๋ถ์กฑ์ ๊ฒช๊ณ ์๋ค. ์ด์ ์ ์๋๋ค์ base network์ pre-train์ task-specificํ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฏธ์ง ์ดํด์ NLP ๊ฐ๊ฐ์ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์๋ค. task-specific model์ ์ด๋ ํ ํฌ๊ด์ ์ธ visual-linguistic pre-training ์์ด, ๊ตฌ์ฒด์ ์ธ target task์ ๋ํด ์ง์ fine-tune๋๋ค. ๊ทธ๋์ task-specific model์ target task์ ๋ํ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๋ฉด ์ค๋ฒํผํ
์ ๊ฒช์ ์ ์๋ค. ๋ํ task-specificํ ๋ชจ๋ธ ๋์์ธ ๋๋ฌธ์, pre-training์ผ๋ก๋ถํฐ ์ด์ต์ ์ป๊ธฐ ํ๋ค๋ค.
VL-BERT์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ชฉํ๋ ์๊ฐ์ ๋ฐ ์ธ์ด์ ๋๋ฉ์ธ์์ multi-modal ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ข
ํฉํ๊ธฐ ์ํ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด์, VQA task์์ ์๋ง์ ๋๋ต์ ๋ฝ๊ธฐ ์ํด์, ๋คํธ์ํฌ๋ ์ง๋ฌธ๊ณผ ๋๋ต์ผ๋ก๋ถํฐ ์ธ์ด ์ ๋ณด๋ฅผ ํตํฉํ๋ ๊ถํ์ ์ค์ผํ๊ณ ์
๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ข
ํฉํด์ผ ํ๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ์ธ์ด์ ์๋ฏธ๋ฅผ ์ ๋ ฌํ ์ ์์๋ค. ๋ฐ๋ผ์ ๋
ผ๋ฌธ์์๋ ํจ์จ์ ์ผ๋ก ์๊ฐ์ ๋ฐ ์ธ์ด์ ์ ๋ณด๋ฅผ ์ข
ํฉํ๊ณ ์ ๋ ฌํ ์ ์๊ฒ ํฌ๊ด์ ์ธ representation์ ์ป์ ์ ์๋๋ก ๋
ธ๋ ฅํ์๋ค.
BERT๋ก๋ถํฐ ์๊ฐ์ ๋ฐ์์ visual-linguistic task๋ฅผ ์ํ pre-train ๊ฐ๋ฅํ ํฌ๊ด์ ์ธ representation์ธ VL-BERT๋ฅผ ๊ฐ๋ฐํ์๋ค$($๊ทธ๋ฆผ 1$)$. VL-BERT์ backbone์ Transformer module๋ก ์๊ฐ์ ๋ฐ ์ธ์ด์ embedded feature์ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ์ด ์
๋ ฅ embedded feature์ ์
๋ ฅ ๋ฌธ์ฅ์ผ๋ก๋ถํฐ ๋์จ word์ ์
๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ๋์จ RoI๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ์ฌ๋ฌ Transformer attention module์ ๊ฑฐ์น๋ฉด 'visual-linguistic' ๋จ์๋ฅผ ๋ชจ์ผ๊ณ ์ ๋ ฌํ๋ ํ๋ถํ ๋ฅ๋ ฅ์ ์ป์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ตฌ์ฒด์ visual-linguistic task ์์ task-specific branch๊ฐ ์ถ๊ฐ๋ ์ ์๋ค.
ํฌ๊ด์ representation์ ์ ํ์ฉํ๊ธฐ ์ํด์, ๋
ผ๋ฌธ์์๋ ๊ฑฐ๋ํ visual-linguistic corpus์ text-only dataset๊ณผ ํจ๊ป pre-train ๋๋ค. visual-linguistic corpus์์ pre-training loss๋ ๋๋คํ๊ฒ masking๋ word ๋๋ RoI๋ฅผ ์์ธกํ๋ฉด์ ๋ฐ์ํ๋ค. ์ด๋ฌํ pre-training์ visual-linguistic ๋จ์๋ฅผ ์ข
ํฉํ๊ณ ์ ๋ ฌํ๋ VL-BERT์ ๋ฅ๋ ฅ์ ๋์ฑ ๊ฐ๋ ฌํ๊ฒ ๋ง๋ค์ด ์ค๋ค. text-only corpus ์์์ loss๋ BERT์ MLM loss์ด๊ณ , ์ด๊ฒ์ ๊ธธ๊ณ ๋ณต์กํ ๋ฌธ์ฅ์ ๋ํด์ ์ ๊ทํ๋ฅผ ํฅ์์์ผ์ค๋ค.
2. VL-BERT
2-1. BERT
VL-BERT์ backbone์ด ๋๋ BERT์ ๋ํด์ ์์๋ณด๋ ์น์
์ด๋ค. BERT์ ๋ํ ๋ด์ฉ์ BERT paper review ํฌ์คํธ๋ก ๋์ฒดํ๋๋ก ํ๊ฒ ๋ค.
BERT paper review: https://cartinoe5930.tistory.com/entry/Pre-trained-Language-Modeling-paper-reading2-BERT-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding
Pre-trained Language Modeling paper reading(2) - BERT: Pre-training of Deep Bidirectional Transformers for Language Understandin
Pre-trained Language Modeling paper reading ์์ฆ NLP ๋ถ์ผ์์ ๋จ๊ฑฐ์ด ๊ฐ์์ธ pre-trained Language Modeling์ ๊ดํ ์ ๋ช ํ ๋ ผ๋ฌธ๋ค์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ์๋ค. ์ด Pre-trained Language Modeling paper reading์ ์ด ํฌ์คํธ๋ง์ผ๋ก ๋
cartinoe5930.tistory.com
2-2. Model Architecture
๊ทธ๋ฆผ 1์ VL-BERT์ ๊ตฌ์กฐ๋ฅผ ๋ฌ์ฌํ๊ณ ์๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก VL-BERT๋ visual content๋ฅผ ์์ฉํ๊ธฐ ์ํด ๊ธฐ์กด์ BERT ๋ชจ๋ธ์ ์๋ก์ด ์์์ input feature embedding์ ์๋ก์ด ์ ํ์ visual feature์ ์ถ๊ฐํ์๋ค. BERT์ ์ ์ฌํ๊ฒ backbone์ multi-layer ์๋ฐฉํฅ Transformer encoder์ธ๋ฐ, ์ด ๊ตฌ์กฐ๋ ๋ชจ๋ ์
๋ ฅ ์์์ ๋ํด dependency modeling์ ๊ฐ๋ฅํ๊ฒ ํด์ค๋ค. BERT๊ฐ ๋ฌธ์ฅ์ ๋จ์ด๋ง์ ์ฒ๋ฆฌํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, VL-BERT๋ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์์๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ์ด๋ค์ ๊ฐ๊ฐ ์ด๋ฏธ์ง๋ก๋ถํฐ ๋์จ RoI์ ์
๋ ฅ ๋ฌธ์ฅ์ sub-word์ด๋ค. RoI๋ object detector์ ์ํด ์์ฑ๋ ์ ์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ํน์ ํน์ task์ ์ฃผ์์ด ๋ ์ ์๋ค.
์๋ก ๋ค๋ฅธ visual-linguistic task์ ๋ํด์ ์
๋ ฅ ํ์์ ๋ค์ํ๋ค. Transformer attention์ ์์๊ฐ ์๋ representation ํ๊ฒฝ์ ๊ฐ์ฌํ๊ฒ๋, ์
๋ ฅ ์์์ ์๋ฒ ๋ฉ ๊ธฐ๋ฅ์ด ์ ์ ํ๊ฒ ์ค๊ณ๋๋ ํ generic representation์ ์ป์ ์ ์๋ค. ์
๋ ฅ ์์๋ก๋ 3๊ฐ๊ฐ ๋ค์ด์ค๋๋ฐ ๊ฐ๊ฐ visual, linguistic, ์๋ก ๋ค๋ฅธ ์
๋ ฅ ํ์์ ๋ชจํธํจ์ ์์ ๊ธฐ ์ํ ์คํ์
์์์ด๋ค. ๊ทธ ๋ค์์ ์
๋ ฅ ์ํ์ค๋ ํญ์ ์คํ์
๋ถ๋ฅ ์์ $($[CLS]$)$๋ก ์์ํ ๋ค์์, linguistic ์์๊ฐ ์ค๊ณ , visual ์์๊ฐ ์จ๋ค. ๋ง์ง๋ง์๋ ์คํ์
์๋ฉ ์์ $($[END]$)$๋ก ๋๋๋ค. linguistic ์์์์ ์๋ก ๋ค๋ฅธ ๋ฌธ์ฅ์ ๊ตฌ๋ถํ๊ธฐ ์ํด ์คํ์
๋ถ๋ฆฌ ์์ $($[SEP]$)$๊ฐ ์๋ก ๋ค๋ฅธ ๋ฌธ์ฅ ์์ ๋ค์ด๊ฐ๊ณ , linguistic๊ณผ visual ์์ ์ฌ์ด์๋ ๋ค์ด๊ฐ๋ค. ๊ฐ๊ฐ์ ์
๋ ฅ ์์์ ๋ํด, ์ด๋ค์ embedding feature์ token embedding, visual feature embedding, segment embedding, sequence position embedding ์ด๋ ๊ฒ 4๊ฐ์ embedding์ ํฉ์ด๋ค. ์ด๋ค ์ค์ visual feature embedding์ visual ๋จ์๋ฅผ ์บก์ฒํ๊ธฐ ์ํด ์๋กญ๊ฒ ์๊ฐ๋์๋ค. ์ด ์ธ์ ๋ค๋ฅธ 3๊ฐ์ embedding์ ๊ธฐ์กด์ BERT ๋
ผ๋ฌธ์ ๋์์ธ์ ๋ฐ๋๋ค.
Token Embedding BERT๋ฅผ ๋ฐ๋ผ์ linguistic word๋ WordPiece embedding์ ์ฌ์ฉํ์ฌ ์๋ฒ ๋ฉ๋์๋ค. ์คํ์
ํ ํฐ์ ๊ฐ๊ฐ์ ์คํ์
์์์ ํ ๋น๋๋ค. visual ์์๋ฅผ ์ํด ์คํ์
[IMG] ํ ํฐ์ ๊ทธ๋ค ๊ฐ๊ฐ์ ํ ๋น๋๋ค.
Visual Feature Embedding visual appearance feature & visual geometry embedding์ด ์๋๋ฐ, ์ด ๋์ ํฉ์ณ์ visual feature embedding์ ๋ง๋ค์๋ค.
RoI์ ํด๋นํ๋ ์๊ฐ์ ์์์ ๋ํด, visual appearance feature์ Fast R-CNN detector๋ฅผ ์ ์ฉํจ์ผ๋ก์จ ์ถ์ถํ์๋ค. ์ฌ๊ธฐ์ ๊ฐ RoI์ ์ถ๋ ฅ ๋ ์ด์ด ์ด์ ์ feature vector๋ visual feature embedding์ผ๋ก ์ฌ์ฉ๋๋ค. ๋น์๊ฐ์ ์์์ ๋ํด visual appearance feature์ ํด๋นํ๋ feature๋ ์ ์ฒด ์
๋ ฅ ์ด๋ฏธ์ง์์ ์ถ์ถ๋์๋ค. ์ด๋ค์ ์ ์ฒด ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ฎ๋ RoI์ Faster R-CNN์ ์ ์ฉํ์ฌ ์ป์ด์ก๋ค.
visual geometry embedding์ VL-BERT์์ธ ์ด๋ฏธ์ง์์ ๊ฐ ์
๋ ฅ ์๊ฐ์ ์์์ geometry location์ ์๋ ค์ฃผ๊ธฐ ์ํด ๋์์ธ ๋์๋ค. ๊ฐ๊ฐ์ RoI๋ $(\frac {x_{LT}}{W}, \frac {y_{LT}}{H}, \frac {x_{RB}}{W}, \frac {y_{RB}}{H})$์ 4์ฐจ์ ๋ฒกํฐ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ฌ๊ธฐ์ $(x_{LT}, y_{LT})$๋ ์ผ์ชฝ ๋งจ์๋ฅผ ๋ํ๋ด๊ณ , $(x_{RB}, y_{RB})$๋ ์ค๋ฅธ์ชฝ ์๋๋ฅผ ๋ํ๋ธ๋ค. ๋น์ฐํ W๋ width, H๋ height๋ฅผ ๋ํ๋ธ๋ค. ์ด 4์ฐจ์ ๋ฒกํฐ๋ ๊ณ ์ฐจ์ representation์ผ๋ก ๋ณํ์ ์ํด ์๋ก ๋ค๋ฅธ wavelength์ sine & cosine function์ ๊ณ์ฐํ๋ค.
visual feature embedding์ ๊ฐ ์
๋ ฅ ์์์ ๋ถ์ฐฉ๋๋ค. ์ด๊ฒ์ visual appearance feature์ visual geometry embedding์ ์กฐํฉ์ ์
๋ ฅ์ผ๋ก ๋ฐ๋ fully connected layer์ ์ถ๋ ฅ์ด๋ค.
Segment Embedding A, B, C 3๊ฐ์ segment๋ ์๋ก ๋ค๋ฅธ ์์ค๋ก๋ถํฐ ์ป์ ๋ณ๊ฐ์ ์
๋ ฅ ์์๋ฅผ ์ ์ํ๋ค. ์ฌ๊ธฐ์ A์ B๋ ๊ฐ๊ฐ ์ฒซ ๋ฒ์งธ ์
๋ ฅ ๋ฌธ์ฅ๊ณผ ๋ ๋ฒ์งธ ์
๋ ฅ ๋ฌธ์ฅ๋ค๋ก๋ถํฐ์ ๋จ์ด์ด๊ณ , C๋ ์
๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ป์ RoI์ด๋ค. ์๋ฅผ ๋ค์ด <Question, Answer, Image> ์
๋ ฅ ํ์์ ๋ํด, A๋ Question, B๋ Answer, C๋ Image๋ฅผ ์๋ฏธํ๋ค. <Caption, Image>์ ๋ํด์๋, A๊ฐ Caption, C๋ Image๋ฅผ ์๋ฏธํ๋ค. ํ์ต๋ segment embedding์ ๋ชจ๋ ์
๋ ฅ ์์์ ์ถ๊ฐ๋์ ์ด๋ค segment์ธ์ง๋ฅผ ๊ฐ๋ฆฌ์ผ์ค๋ค.
Sequence Position Embedding BERT์ ๋๊ฐ์ด ํ์ต ๊ฐ๋ฅํ sequence position embedding์ input sequence์ ์์๋ฅผ ๊ฐ๋ฆฌํค๊ธฐ ์ํด ๋ชจ๋ ์
๋ ฅ ์์์ ์ถ๊ฐ๋๋ค. ์
๋ ฅ ์๊ฐ์ ์์์๋ ์์ฐ์ ์์๊ฐ ์๊ธฐ ๋๋ฌธ์ ์
๋ ฅ ์ํ์ค์ ์ด๋ค ์์ด์ด ์ค๋ ๊ฐ์ ๋๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค. ๋ฐ๋ผ์ ๋ชจ๋ ์๊ฐ์ ์์๋ฅผ ์ํ sequence position embedding์ ๋๊ฐ๋ค.
2-3. Pre-training VL-BERT
VL-BERT์ generic feature representation์ ์ ์ ํ๊ฒ ๋์์ธ๋ pre-training task๋ฅผ ์ฌ์ฉํ์ฌ ๋๊ท๋ชจ์ ๋ฐ์ดํฐ์
์์ pre-train์ ๊ฐ๋ฅํ๊ฒ ํ์๋ค. ๋
ผ๋ฌธ์์๋ VL-BERT๋ฅผ visual-linguistic๊ณผ text-only ๋ฐ์ดํฐ์
์์ pre-train ํ์๋ค. ์ฌ๊ธฐ์ visual-linguistic corpus๋ก Conceptual Caption ๋ฐ์ดํฐ์
์ ํ์ฉํ์๋ค. Conceptual Caption ๋ฐ์ดํฐ์
์ caption์ ์ฃผ๋ก ๊ฐ๋จํ ๊ตฌ์ ๋ก ์ด๋ฃจ์ด์ ธ ์์ด์ downstream task์ ์ ์ฉํ๊ธฐ์๋ ๋๋ฌด ์งง๊ณ ๊ฐ๋จํ๋ค. ์งง๊ณ ๊ฐ๋จํ text scenario์์ ๋ฐ์ํ๋ overfitting์ ํผํ๊ธฐ ์ํด long & complex ๋ฌธ์ฅ์ด ์๋ text-only corpus์์๋ pre-train ๋์๋ค. ์ด๋ฅผ ์ํด BERT์ pre-training์๋ ์ฌ์ฉ๋๋ BooksCorpus์ English Wikipedia ๋ฐ์ดํฐ์
์ ํ์ฉํ์๋ค.
SGD training์์ ๊ฐ๊ฐ์ mini-batch ์์ ์ํ๋ค์ Conceptual Captions์ Books-corpus & English Wikipedia๋ก๋ถํฐ ๋๋คํ๊ฒ ๋ฝ์์ง๋ค $($1:1์ ๋น์จ$)$. Conceptual Captions๋ก๋ถํ ๋ฝ์์ง ์ํ์ธ VL-BERT์ ์
๋ ฅ ํ์์ <Caption, Image>์ด๋ค. ์ฌ๊ธฐ์ ์ด๋ฏธ์ง์ RoI๋ pre-trained Faster R-CNN object detector์ ์ํด ์์น๊ฐ ์ฐพ์์ง๊ณ ์นดํ
๊ณ ๋ฆฌํ ๋๋ค. ๋ ๊ฐ์ pre-training task๋ loss๋ฅผ ํ์ฉํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
Task #1: MLM with Visual Clues. ์ด task๋ BERT์์ ํ์ฉ๋๋ MLM๊ณผ ์ ์ฌํ๋ค. ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ visual๊ณผ linguistic content ๊ฐ์ ์์กด์ฑ์ ์บก์ฒํ๊ธฐ ์ํด visual clue๊ฐ VL-BERT์ ์ฌ์ฉ๋๋ค. pre-training ์ค์ ์
๋ ฅ ๋ฌธ์ฅ์ ๊ฐ ๋จ์ด๋ค์ ๋๋คํ๊ฒ ๋ง์คํน๋๋ค. ๋ชจ๋ธ์ masked word๋ฅผ unmasked word์ visual feature์ ๊ธฐ๋ฐํด์ ์์ธกํ๊ธฐ ์ํด ํ์ต๋๋ค. ์ด task๋ ๋คํธ์ํฌ์๊ฒ sentence word์ ์์กด์ฑ์ ๋ชจ๋ธ๋งํ ๋ฟ๋ง ์๋๋ผ visual content์ linguistic content๋ฅผ ์ ๋ ฌํ๋ค. pre-training ์ค์ masked word์ ํด๋นํ๋ ์ต์ข
์ถ๋ ฅ์ ์ ์ฒด vocabulary ์๋ก classifier์ ๋ค์ด๊ฐ๋ค. ์ด ๊ฐ์ Softmax cross-entropy loss๋ก ์ป์ด์ง๋ค.
Task #2: Masked RoI Classification with Linguistic Clues. ์ด task๋ Task #1์ ์ด์ค ํ์คํฌ์ด๋ค. ์ด๋ฏธ์ง์ RoI๋ ๋๋คํ๊ฒ mask out ๋๊ณ , pre-training task๋ ์๋ก ๋ค๋ฅธ ์ฆ๊ฑฐ๋ก๋ถํฐ masked RoI์ ์นดํ
๊ณ ๋ฆฌ ๋ผ๋ฒจ์ ์์ธกํ๋ค. ์๋ก ๋ค๋ฅธ ์์์ visual feature embedding์ผ๋ก๋ถํฐ ๋ฐ์ํ๋ visual clue ๋์๋ฅผ ํผํ๊ธฐ ์ํด masked RoI์ ์๋ ํฝ์
๋ค์ Fast R-CNN์ด ์ ์ฉ๋๊ธฐ ์ด์ ์ zero out ๋๋ค. pre-training ์ค์ masked RoI์ ํด๋นํ๋ ์ต์ข
output feature๋ object category ๋ถ๋ฅ๋ฅผ ์ํด softmax cross-entropy loss๋ฅผ ์ฌ์ฉํ์ฌ classifier์ ๋ค์ด๊ฐ๋ค. pre-trained Faster R-CNN์ ์ํด ์์ธก๋ ์นดํ
๊ณ ๋ฆฌ ๋ผ๋ฒจ์ ground-truth๋ก ์ค์ ๋๋ค.
์์ฝํ๋ฉด visual-linguistic corpus์์์ pre-training์ visual content์ linguistic content ๊ฐ์ ์ ๊ตํ ์ ๋ ฌ์ ํฅ์์์ผ์ค๋ค. ๋ฐ๋ฉด์ text-only corpus์์์ pre-training์ ๊ธธ๊ณ ๋ณต์กํ ๋ฌธ์ฅ์ ๋ํ ์ดํด๊ฐ ํ์ํ downstream task๋ฅผ ์ฉ์ดํ๊ฒ ํด์ค๋ค.
2-4. Fine-tuning VL-BERT
VL-BERT๋ ๋ค์ํ visual-linguistic task๋ฅผ ์ํด generic feature representation์ด ๋๋๋ก ์ค๊ณ๋์๋ค. ์ด๋ VL-BERT๊ฐ ๋ค์ํ downstream task์ ๋ํด ๋น๊ต์ ๊ฐ๋จํ๊ฒ fine-tuneํ ์ ์๊ฒ ํด์ค๋ค. ์ด๋ฅผ ์ํด VL-BERT์ ์ ์ ํ ํ์์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ ๋คํธ์ํฌ ํ๋ผ๋ฏธํฐ์ ๋ํด ์ข ๋จ ๊ฐ์ fine-tune ๋์ด์ผ ํ ํ์๊ฐ ์๋ค. VL-BERT๋ ๋ํ ๋ ๋ง์ ๋ฌธ์ฅ๊ณผ ๋ ๋ง์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ์ ์ ํ segment embedding์ ์ฌ์ฉํ์๋ค. ์ถ๋ ฅ์์ ๋ณดํต [CLS] ์์์ ์ต์ข ์ถ๋ ฅ feature๋ sentence-image-relation level์ ์์ธก์ ์ํด ์ฌ์ฉ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ํ์์ ๋ฐ๋ผ task-specific loss ํจ์์ ํ์ต ์ ๋ต์ ๋ฐ๋ก ํ๋๋์ด์ผ ํ๋ค.
3. Experiment
3-1. Pre-training
์น์ 2-3. ์์ VL-BERT๋ Conceptual Captions๋ฅผ visual-linguistic corpus๋ก, BooksCorpus & English Wikipedia๋ฅผ text-only corpus๋ก ํด์ ๊ณต๋์ผ๋ก pre-train ํ์๋ค. VL-BERT๋ ๊ธฐ์กด์ BERT model์์ ์๊ฐ์ ์ ๋ณด๋ฅผ ์บก์ฒํ๊ธฐ ์ํด ์๋ก์ด ์ ๋ ฅ์ ์ถ๊ฐํ์๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋ผ๋ฏธํฐ๋ค์ ๊ธฐ์กด์ BERT์ ๋๊ฐ์ด ์ด๊ธฐํํ์๋ค.
Conceptual Captions ์์ pre-training ํ๊ธฐ ์ ์ pre-trained Faster R-CNN์ RoI๋ฅผ ์ถ์ถํ๊ธฐ ์ํด ์ ์ฉํ์๋ค. ํนํ ๊ฐ๊ฐ์ ์ด๋ฏธ์ง์ ๋ํด score๊ฐ 0.5๋ฅผ ๋ฅ๊ฐํ๋ ์ต๋ 100 ๊ฐ์ RoI๋ฅผ ์ ํํ์๋ค. ์ต์๋ก๋, score ๊ธฐ์ค์ ์ ์๊ฐํ์ง ์๊ณ ์ด๋ฏธ์ง์์ 10๊ฐ์ RoI๋ฅผ ์ ํํ์๋ค.
3-2. Fine-tuning on Downstream Tasks
pre-trained VL-BERT๋ ๋ค์ํ downstream visual-linguistic task์ ๋ํด fine-tune ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ์ ๋ ฅ ํ์๊ณผ ์ถ๋ ฅ ์์ธก, loss ํจ์, ํ์ต ์ ๋ต์ ๊ฐ๋จํ ์กฐ์ ์ ๊ฐํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 2๋ ๊ฐ๊ฐ์ visual-linguistic downstream task์ ๋ํด ์๋ก ๋ค๋ฅธ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ํ์์ ๋ณด์ฌ์ค๋ค.
์คํ ๊ฒฐ๊ณผ์ ๋ํด์๋ ํ๋ง ์ฒจ๋ถํ๊ณ ๋ฐ๋ก ์ค๋ช ์ ํ์ง ์๊ฒ ๋ค.
VCR$($VIsual Commonsense Reasoning$)$
VQA$($Visual Question Answering$)$
Referring Expression Comprehension
4. Ablation Study
๋ค์์ ํ 4๋ VL-BERT pre-training์ ์ค์ํ ๋์์ธ ์ ํ์ ๋ํ ๋ณํ์ ์ฃผ์์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
์ ๋ฐ์ ์ผ๋ก VL-BERT์ pre-training์ 3๊ฐ์ downstream task์ ๋ํด ์ ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ์ฑ๋ฅ ํฅ์์ ์ ๋๋ task์ ๋ฐ๋ผ์ ์์ดํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด ๋ชจ๋ ์ธํ ์ ์ข ํฉํ VL-BERT๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
์ถ์ฒ
https://arxiv.org/abs/1908.08530
VL-BERT: Pre-training of Generic Visual-Linguistic Representations
We introduce a new pre-trainable generic representation for visual-linguistic tasks, called Visual-Linguistic BERT (VL-BERT for short). VL-BERT adopts the simple yet powerful Transformer model as the backbone, and extends it to take both visual and linguis
arxiv.org