The overview of this paper
vision-and-language ์ถ๋ก ์ ์๊ฐ์ ๊ฐ๋ ๊ณผ ์ธ์ด์ ์๋ฏธ์ ๋ํ ์ดํด๋ฅผ ํ์๋ก ํ๊ณ , ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ์ด ๋ modality ๊ฐ์ ์ ๋ ฌ์ ํ์๋ก ํ๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ vision-and-language ์ฐ๊ฒฐ์ฑ์ ํ์ตํ๊ธฐ ์ํด LXMERT$($Learning Cross-Modality Encoder Representation from Transforer$)$๋ฅผ ์ ์ํ์๋ค. LXMERT๋ 3๊ฐ์ ์ธ์ฝ๋๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ์ Transformer model์ ์ฌ์ฉํ๊ณ , vision๊ณผ language semantic์ ์ฐ๊ฒฐํ๊ธฐ ์ํด 5๊ฐ์ ๋ค์ํ representative pre-training task๋ฅผ ์ฌ์ฉํ์๋ค. ์ด task๋ค์ intra-modality์ cross-modality ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋๋ฐ ๋์์ ์ฃผ์๋ค. ๊ทธ ํ์ pre-trained ํ๋ผ๋ฏธํฐ๋ก๋ถํฐ fine-tuning์ ํ ํ์ VQA์ GQA task์์ SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๊ทธ๋ฆฌ๊ณ LXMERT์ ์ผ๋ฐํ์ฑ์ ์ฆ๋ช ํ๊ธฐ ์ํด ์ด๋ ค์ด visual-reasoning task์ธ NLVR์ ์ ์ฉ์์ผ ๋ณธ ๊ฒฐ๊ณผ ์ด์ ์ต๊ณ ๊ฒฐ๊ณผ์์ 22% ๋ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
Table of Contents
1. Introduction
2. Model Architecture
2-1. Input Embeddings
2-2. Encoders
2-3. Output Representations
3. Pre-Training Strategies
3-1. Pre-Training Tasks
3-2. Pre-Training Data
3-3. Pre-Training Procedure
4. Experiments
5. Analysis
5-1. BERT vs. LXMERT
5-2. Effect of the Image QA Pre-training Task
5-3. Effect of VIsion Pre-training tasks
1. Introduction
vision-and-language ์ถ๋ก ์ ์๊ฐ์ ๊ฐ๋ ๊ณผ ์ธ์ด์ ์๋ฏธ์ ๋ํ ์ดํด์ ์ด ๋ ๊ฐ์ cross-modal ์ ๋ ฌ๊ณผ ๊ด๊ณ๋ฅผ ํ์ตํด์ผ ํ๋ค. ์ง๋ ๋ช ๋ ๋์ ์ด ๊ฐ๊ฐ์ ์๊ฐ์ ๊ฐ๋ ์ ์ดํดํ๋ ค๋ ๋ชจ๋ธ๊ณผ ์ธ์ด์ ์๋ฏธ๋ฅผ ์ดํดํ๋ ค๋ ๋ชจ๋ธ๋ค์ ์ ๋ง ์๋์์ด ์์์ ธ ๋์๊ณ ์๋นํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด๋ฌํ single-modlaity์ ์ฑ๊ณต์๋ ๋ถ๊ตฌํ๊ณ vision๊ณผ language์ modality-pair์ ๋ํ ๋๊ท๋ชจ pre-training๊ณผ fine-tuning ์ ๋ต์ ์์ง under-develop ๋์ด ์๋ค.
๊ทธ๋์ ๋ ผ๋ฌธ์์๋ pre-trained vision-and-language cross-modality ํ๋ ์์ํฌ๋ฅผ ๋ง๋ค์ด์ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๋ชจ๋ธ์ ์ด๋ฆ์ "LXMERT: Learning Cross-Modality Encoder Representations from Transformers"๋ก ์ง์๋ค. ์ด ๋ชจ๋ธ์ vision-and-language์ ์ํธ์์ฉ์ ์ง์คํ๊ณ , ํนํ ํ๋์ ์ด๋ฏธ์ง์ ๊ทธ์ ๋ํ ์ค๋ช ๋ฌธ์์ representation์ ๋ํด ์ง์คํ์๋ค. LXMERT๋ 3๊ฐ์ Transformer encoder๋ก ์ด๋ฃจ์ด์ ธ ์๋ค: object relationship encoder, language encoder, cross-modality encoder. vision๊ณผ language ๊ฐ์ ๋ ๋์ cross-modal ์ ๋ ฌ์ ํ์ตํ๊ธฐ ์ํด LXMERT๋ฅผ 5๊ฐ์ ๋ค์ํ representative task์ ๋ํด์ pre-train ํ์๋ค: masked cross-modality language modeling, RoI-feature regression์ ํตํ masked object prediction, detected-label classification์ ํตํ masked object prediction, image question answering. single-modality pre-training๊ณผ ๋ฌ๋ฆฌ, ์ด multi-modality pre-training์ ๋ชจ๋ธ์ด ๋์ผ modality์ ๋ค๋ฅธ modality ๋ ๋ชจ๋๋ก๋ถํฐ masked feature์ ์ถ๋ก ํ ์ ์๊ฒ ํ์๋ค. ์ด์ ๊ฐ์ ๋ฐฉ์์ด intra-modality์ cross-modality ๊ด๊ณ๋ฅผ ๋ง๋๋๋ฐ ๋์์ ์ฃผ์๋ค.
์ด๋ ๊ฒ ํ์ต๋ LXMERT๋ฅผ ๋ ๊ฐ์ ์ ๋ช ํ visual question-answering ๋ฐ์ดํฐ์ ์ธ VQA์ GQA์ ์ ์ฉ์์ผ๋ณธ ๊ฒฐ๊ณผ, SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. LXMERT์ ์ผ๋ฐํ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด NLVR ๋ฐ์ดํฐ์ ์ ์ ์ฉ์์ผ ๋ณธ ๊ฒฐ๊ณผ, ์ด์ ์ ์ฑ๋ฅ๋ณด๋ค 22% ๋ ํฅ์๋ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค. ์ด๋ฌํ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ ์ด์ ์ ๋ํด ๋ถ์ํ์๊ณ , ์ฌ๋ฌ ablation study๋ ์งํํ์๋ค.
2. Model Architecture
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ NLP ๋์์ธ ํ๋ก๊ทธ๋ ์ค๋ฅผ ๋ฐ๋ผ์ self-attention๊ณผ cross-attention layer์ ์ฌ์ฉํด์ cross-modality model์ ๋ง๋ค์๋ค. ๊ทธ๋ฆผ 1์ ๋์์๋ ๊ฒ์ฒ๋ผ LXMERT๋ 2๊ฐ์ ์ ๋ ฅ์ ๋ฐ๋๋ค: ์ด๋ฏธ์ง & ๊ด๋ จ๋ ๋ฌธ์ฅ$($์บก์ or ์ง๋ฌธ$)$. ๊ฐ๊ฐ์ ์ด๋ฏธ์ง๋ object์ ๋์ด๋ก ํํ๋๊ณ , ๊ฐ๊ฐ์ ๋ฌธ์ฅ์ word์ ๋์ด๋ก ํํ๋๋ค. self-attention๊ณผ cross-attention์ ์ธ๋ฐํ ๋์์ธ๊ณผ ์กฐํฉ์ ํตํด LXMERT๋ ์ ๋ ฅ๊ฐ์ผ๋ก๋ถํฐ language representation, image representation, cross-modality representation์ ์์ฑํ ์ ์์๋ค.
2-1. Input Embeddings
LXMERT์ input embedding layer๋ ์ ๋ ฅ๊ฐ์ ๋ ๊ฐ์ feature sequence๋ก ๋ณํํ๋ค: word-level sentence embedding & object-level image embedding. ์ด๋ฌํ embedding feature๋ ํ์์ encoding layer๋ฅผ ํตํด ์ถ๊ฐ์ ์ผ๋ก ์ฒ๋ฆฌ๋๋ค.
Word-Level Sentence Embeddings ๋ฌธ์ฅ์ BERT์์ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋๊ฐ์ WordPiece tokenizer์ ์ํด ๋ฌธ์ฅ์ด ๊ธธ์ด $n$์ ๋จ์ด๋ค ${w_1, ..., w_n}$์ผ๋ก ๋๋ ์ง๋ค. ๊ทธ๋ค์์, ๊ทธ๋ฆผ 1์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ word $w_i$์ ๊ทธ ์ธ๋ฑ์ค $i$๋ embedding sub-layer์ ์ํด ๋ฒกํฐ๋ก ํฌ์๋๊ณ , index-aware word embedding์ ์ถ๊ฐ๋๋ค.
Object-Level Image Embeddings ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํตํด ๋์จ feature map์ ์ฌ์ฉํ๋ ๋์ ์ ๊ฐ์ง๋ ๊ฐ์ฒด์ feature์ ์ด๋ฏธ์ง์ ์๋ฒ ๋ฉ์ฒ๋ผ ๋ค๋ฃจ์๋ค. ํนํ, object detector๋ ์ด๋ฏธ์ง๋ก๋ถํฐ $m$๊ฐ์ object ${o_1, ..., 0_m}$์ ํ์งํ๋ค. ๊ฐ๊ฐ์ object $o_j$๋ ์ด object์ position feature $p_j$์ object์ 2048์ฐจ์ region-of-interest$($RoI$)$ feature $f_j$์ ์ํด ํํ๋๋ค. ๋ ผ๋ฌธ์์๋ 2๊ฐ์ fully-connected layer์ ์ถ๋ ฅ์ ๋ํจ์ผ๋ก์จ position-aware embedding $v_j$๋ฅผ ํ์ตํ์๋ค.
visual reasoning์์ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ ๋์ ์, positional ์ ๋ณด๋ฅผ ํฌํจํ๋ ๊ฒ์ด masked object prediction pre-training task๋ฅผ ์ํด ํ์์ ์ด๋ค. ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๋ ์ด์ด์ ๋ค์ attention ๋ ์ด์ด๋ ์ ๋ ฅ์ absolute index์ ๊ตฌ์ ๋ฐ์ง ์๊ธฐ ๋๋ฌธ์ ๊ฐ์ฒด์ ์์๊ฐ ์ง์ ๋์ง ์๋๋ค. ๋ง์ง๋ง์ผ๋ก ์์ object-level image embedding์ ์์์์ layer normalization์ด feature๋ค์ด ํฉ์ณ์ง๊ธฐ ์ ์ ์ ์ฉ๋๋๋ฐ, ์ด๋ ๋ ๊ฐ์ ์๋ก ๋ค๋ฅธ ์ ํ์ feature์ ์๋์ง ๋ฐธ๋ฐ์ค๋ฅผ ๋ง์ถ๊ธฐ ์ํจ์ด๋ค.
2-2. Encoders
๋ ผ๋ฌธ์์๋ self-attention๊ณผ cross-attention์ ๊ธฐ๋ฐ์ผ๋ก ํด์ language encoder, object-relationship encoder, cross-modality encoder๋ฅผ ๋ง๋ค์๋ค. ๋จผ์ attention์ ๋ํด์ ์์๋ณด๊ณ , ์ด encoder๋ค์ ์ด๋ป๊ฒ ๋ง๋ค์๋์ง์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ๋ค.
Background: Attention Layers attention layer๋ query vector $x$์ ์ฐ๊ด๋ context vector ${y_j}$์ ์ธํธ๋ก๋ถํฐ ์ ๋ณด๋ฅผ ๊ฒ์ํ๋๋ฐ ๋ชฉํ๋ฅผ ๋๋ค. attention layer๋ ์ฒ์์ query vector $x$์ ๊ฐ context vector $y_j$ ๊ฐ์ matching score $a_j$๋ฅผ ๊ณ์ฐํ๋ค. ๊ทธ๋ค์์ score๋ softmax๋ฅผ ํตํด ์ ๊ทํ๋๋ค.
attention layer์ ์ถ๋ ฅ์ context vector์ ๊ฐ์คํฉ์ด๋ค$($softmax normalized score$)$: $Att_{X \to Y}(x, {y_i}) = \sum_{j}\alpha_{j}y_{j}$. query vector $x$์ context vector ${y_i}$๊ฐ ์ผ์นํ๋ฉด self-attention์ด๋ผ ํ๋ค. ๋ ผ๋ฌธ์์๋ Transformer๋ฅผ ๋ฐ๋ผ์ multi-head attention์ ์ฌ์ฉํ์๋ค.
Single-Modality Encoders embedding layer ํ์, ์ฒ์์ผ๋ก 2๊ฐ์ transformer encoder์ ์ ์ฉํ์๋ค: language encoder & object-relationship encoder. ๊ทธ๋ฆฌ๊ณ ์ด ๊ฐ๊ฐ์ encoder๋ single modality์๋ง ์ง์คํ๋ค. BERT์ ๋ฌ๋ฆฌ encoder๋ฅผ ํ ์คํธ ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง์๋ ์ ์ฉ์์ผฐ๋ค. single-modality encoder์์ ๊ฐ๊ฐ์ ๋ ์ด์ด๋ self-attention layer$($'Self'$)$์ feed-forward layer$($'FF'$)$๋ฅผ ํฌํจํ๊ณ ์๋ค. ์ฌ๊ธฐ์ feed-forward layer๋ 2๊ฐ์ fully-connected layer๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ ผ๋ฌธ์์๋ $\textbf{N}_{\textbf{L}}$๊ณผ $\textbf{N}_{\textbf{R}}$ ๋ ์ด์ด๋ฅผ ๊ฐ๊ฐ language encoder์ object-relationship encoder๋ก ๋ฐ์๋ค์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ๊ฐ์ sub-layer ํ์ residual connection๊ณผ layer normalization์ ์ถ๊ฐํ์๋ค.
Cross-Modality Encoder cross-modality encoder์์ ๊ฐ๊ฐ์ cross-modality layer$($๊ทธ๋ฆผ 1์์ ์ค๋ฅธ์ชฝ์ ์ ์ ๋ธ๋ก$)$๋ 2๊ฐ์ self-attention layer, 1๊ฐ์ ์๋ฐฉํญ cross-attention, 2๊ฐ์ feed-forward layer๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ ผ๋ฌธ์์๋ encoder ๊ตฌํ์์ $\textbf{N}_{\textbf{X}}$์ ์ด๋ฌํ cross-modality layer์ ์์๋ค. $k$๋ฒ์งธ ๋ ์ด์ด ์์์, 2๊ฐ์ ๋จ๋ฐฉํฅ cross-attention layer๋ก ์ด๋ฃจ์ด์ง ์๋ฐฉํฅ cross-attention layer$($'Cross'$)$๊ฐ ๋จผ์ ์ ์ฉ๋๋ค: ํ๋๋ language to vision์์ ์จ ๊ฒ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ vision to language์์ ์จ ๊ฒ์ด๋ค. query์ context vector๋ $(k-1)$๋ฒ์งธ ๋ ์ด์ด์ ์ถ๋ ฅ์ด๋ค.
cross-attention layer์ ๋ modality ๊ฐ์ ์ ๋ณด๋ฅผ ๊ตํํ๊ณ , entity๋ฅผ ์ ๋ ฌํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก ๋ด๋ถ ์ฐ๊ฒฐ์ ๋ง๋ค๊ธฐ ์ํด self-attention layer$($'Self'$)$๋ cross-attention layer์ ์ถ๋ ฅ์ ์ ์ฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, $k$๋ฒ์งธ ๋ ์ด์ด์ ์ถ๋ ฅ์ธ ${h_{i}^{k}}$์ ${v_{j}^{k}}$๋ ${\hat{h}_{i}^{k}}$์ ${\hat{v}_{j}^{k}}$ ์์์ feed-forward layer$($'FF'$)$์ ์ํด ์์ฑ๋๋ค. ๋ ผ๋ฌธ์์๋ single-modality encoder์ ์ ์ฌํ๊ฒ ํ๊ธฐ ์ํ์ฌ ๊ฐ๊ฐ์ sub-layer์ residual connection๊ณผ layer normalization์ ์ถ๊ฐํ์๋ค.
2-3. Output Representations
๊ทธ๋ฆผ 1์ ๊ฐ์ฅ ์ค๋ฅธ์ชฝ์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ LXMERT๋ ๊ฐ๊ฐ language, vision, cross-modality์ ์ถ๋ ฅ์ ๊ฐ๋๋ค. language์ vision์ ์ถ๋ ฅ์ cross-modality encoder์ ์ํด ์์ฑ๋ feature sequence์ด๋ค. cross-modality ์ถ๋ ฅ์ ์ํด, ๋ ผ๋ฌธ์์๋ sentence word ์ด์ ์ ์คํ์ ํ ํฐ [CLS]๋ฅผ ์ถ๊ฐํ๊ณ language feature sequence์์ ์คํ์ ํ ํฐ์ ํด๋นํ๋ feature vector๋ cross-modality ์ถ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค.
3. Pre-Training Strategies
vision๊ณผ language ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ์ดํดํ๊ธฐ ์ํ ๋ ๋์ ์ด๊ธฐํ๋ฅผ ํ์ตํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ๊ฑฐ๋ํ ์ข ํฉ ๋ฐ์ดํฐ์ ์์ ์๋ก ๋ค๋ฅธ modality pre-training task๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ pre-train ํ์๋ค.
3-1. Pre-Training Tasks
Language Task: Masked Cross-Modality LM language ์ธก๋ฉด์์, ๋ ผ๋ฌธ์์๋ masked cross-modality LM task๋ฅผ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆผ 2์ ์๋์ชฝ์์ ๋ณด์ฌ์ง๋ ๊ฒ์ฒ๋ผ task ์ ์ ์ด ๊ฑฐ์ BERT์ ๋๊ฐ๋ค: ๋จ์ด๋ 15% ํ๋ฅ ๋ก masking ๋๊ณ ๋ชจ๋ธ์ masked word๋ฅผ ์์ธกํ ์ ์๋๋ก ํ์ต๋๋ค. BERT์ฒ๋ผ masked word๋ language modality์์ non-masked word๋ก๋ถํฐ ์์ธก๋๋ค. LXMERT์ cross-modal model architecture์์๋ masked word๊ฐ ๋ชจํธํจ์ ํด๊ฒฐํ๊ธฐ ์ํด vision modality๋ก๋ถํฐ๋ ์์ธก๋ ์ ์๋ค. ์ด๋ฌํ ๊ณผ์ ์ vision modality๋ก๋ถํฐ language modality๋ก์ ์ฐ๊ฒฐ์ฑ์ ๋ง๋๋๋ฐ ๋์์ ์ค๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ์ฐจ์ด์ ์ ๊ฐ์กฐํ๊ธฐ ์ํด ์ด task๋ฅผ cross-modality LM์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋์ค์ 5-1์์ LXMERT์ BERT์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ถ๋ฌ์ค๋ ๊ฒ์ด pre-training ํ๋ก์์ ์ ํด๋ฅผ ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ด๋ ์๋ํ๋ฉด BERT๊ฐ ๋น๊ต์ cross-modality ์ฐ๊ฒฐ์ ๋ํ ํ์ต ์์ด language modality์์ ์ ์ํ๋์๊ธฐ ๋๋ฌธ์ด๋ค.
Vision Task: Masked Object Prediction ์ ๊ทธ๋ฆผ 2์ ์์ชฝ์ ๋ณด๋ฉด vision ์ธก๋ฉด์ ๋ํด์ 0.15์ ํ๋ฅ ๋ก ๋๋คํ๊ฒ object๋ฅผ masking ํ๊ณ ๋ชจ๋ธ์๊ฒ masked object์ ์์ธก์ ๋ฌผ์ด๋ณด๋ ๋ฐฉ์์ผ๋ก ํ์ตํ์๋ค. language task์ ์ ์ฌํ๊ฒ ๋ชจ๋ธ์ masked object์ ๋ํด์ visible object์ language modality๋ก๋ถํฐ ์ถ๋ก ํ ์ ์๋ค. vision ์ธก๋ฉด์ผ๋ก๋ถํฐ object๋ฅผ ์ถ๋ก ํ๋ ๊ฒ์ object ๊ด๊ณ๋ฅผ ํ์ตํ๋๋ฐ ๋์์ ์ฃผ๊ณ language ์ธก๋ฉด์์ ์ถ๋ก ํ๋ ๊ฒ์ cross-modality ์ ๋ ฌ์ ํ์ตํ๋๋ฐ ๋์์ ์ค๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ 2๊ฐ์ sub-task๋ฅผ ์ํํ์๋ค: RoI-Feature Regression์ L2 loss๋ฅผ ์ฌ์ฉํ์ฌ object RoI feature $f_j$๋ฅผ ํดํ์์ผฐ๊ณ , Detected-Label Classification์ cross-entropy loss๋ฅผ ์ฌ์ฉํ์ฌ masked object์ ๋ผ๋ฒจ์ ํ์ตํ๋ค. Detected-Label Classification task์์, ๋น๋ก ๋๋ถ๋ถ์ pre-training ์ด๋ฏธ์ง๋ object-level ์ฃผ์์ ๊ฐ์ง๊ณ ์์ง๋ง, ์ฃผ์์ด ๋ฌ๋ฆฐ object์ ground truth label์ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์ ๋ด์ฉ์ด ๋ค๋ฅด๋ค. ์ด๋ฌํ ์ด์ ์์, ๋ ผ๋ฌธ์์๋ Faster R-CNN์ ์ํด ๊ฐ์ง๋ ๋ผ๋ฒจ ์ถ๋ ฅ์ ์ฌ์ฉํ์๋ค. ๋น๋ก ๊ฐ์ง๋ ๋ผ๋ฒจ๋ค์ noise๊ฐ ์์ฌ ์์ง๋ง, ์คํ ๊ฒฐ๊ณผ๋ ์ด๋ฌํ ๋ผ๋ฒจ๋ค์ด pre-training์ ๊ณตํํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
Cross-Modality Tasks ๊ทธ๋ฆผ 2์ ๊ฐ์ฅ ์ค๋ฅธ์ชฝ ์ค๊ฐ์์ ๋ณด์ฌ์ง๋ ๊ฒ์ฒ๋ผ ๊ฐ๋ ฅํ cross-modality representation์ ํ์ตํ๊ธฐ ์ํด language์ vision modality๋ฅผ ํจ๊ป ํ์๋ก ํ๋ 2๊ฐ์ task์์ LXMERT๋ฅผ pre-train ํ์๋ค.
- Cross-Modality Matching: ๊ฐ๊ฐ์ ๋ฌธ์ฅ์ ๋ํด, 0.5์ ํ๋ฅ ์ ์ฌ์ฉํ์ฌ ์ด ๋ฌธ์ฅ๋ค์ ์ด์ธ๋ฆฌ์ง ์๋ ๋ฌธ์ฅ์ ๋์ฒดํ๋ค. ๊ทธ๋ค์์ ์ด๋ฏธ์ง์ ๋ฌธ์ฅ์ด ์๋ก ์ด์ธ๋ฆฌ๋์ง ์์ธกํ๋ ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ต์ํจ๋ค. ์ด task๋ BERT์ Next sentence prediction$($NSP$)$์ ์ ์ฌํ๋ค.
- Image Question Answering$($QA$)$: pre-training ๋ฐ์ดํฐ์ ์ ํ์ฅํ๊ธฐ ์ํด์, pre-training ๋ฐ์ดํฐ์์ 1/3์ ํด๋นํ๋ ๋ฌธ์ฅ๋ค์ ์ด๋ฏธ์ง์ ๋ํ ์ง๋ฌธ์ด๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์๊ฒ ์ด๋ฏธ์ง์ ์ง๋ฌธ์ด ์ผ์นํ ๋ ์ด๋ฌํ ์ด๋ฏธ์ง ๊ด๋ จ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์์ธกํ๋๋ก ๋ชจ๋ธ์๊ฒ ์์ฒญํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ image QA๋ฅผ ์ฌ์ฉํ์ฌ pre-training์ ํ๋ ๊ฒ์ด ๋ ๋์ cross-modality representation์ ์ด๋์ด ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
3-2. Pre-Training Data
ํ 1์์ ๋ณด์ฌ์ง๋ ๊ฒ์ฒ๋ผ ๋ ผ๋ฌธ์์๋ 5๊ฐ์ vision-and-language ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ pre-training ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์๋ค. ์ฌ๊ธฐ์๋ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ธ์จ 2๊ฐ์ original captioning data$($MS COCO, Visual Genome$)$๊ฐ ์๊ณ , 3๊ฐ์ ๊ฑฐ๋ํ imgae question answering ๋ฐ์ดํฐ์ $($VQA, GQA, VG-QA$)$์ ํฉ์ณค๋ค. ๋ ผ๋ฌธ์์๋ ์ ๋ ฌ๋ image-and-sentence ์ง์ ์์ฑํ๊ธฐ ์ํด 5๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ํ ์ ์ฒ๋ฆฌ๋ฅผ ์งํํ์๋ค. ๊ฐ๊ฐ์ image question answering ๋ฐ์ดํฐ์ ์ ๋ํด, mage-and-sentence ๋ฐ์ดํฐ ์ง์ผ๋ก๋ถํฐ ์ง๋ฌธ์ ๋ฌธ์ฅ์ผ๋ก ๋ฐ์๋ค์ด๊ณ ๋๋ต์ image QA pre-training task์์์ ๋ผ๋ฒจ๋ก ๋ฐ์๋ค์๋ค. ์ด๋ ๊ฑฐ๋ํ ์ ๋ ฌ๋ vision-and-language ๋ฐ์ดํฐ์ ์ ์ ๊ณตํด ์คฌ๋ค.
3-3. Pre-Training Procedure
๋ ผ๋ฌธ์์๋ LXMERT model์ ๊ฑฐ๋ํ ํตํฉ ๋ฐ์ดํฐ์ ์์ pre-training task๋ฅผ ํตํด pre-train ํ์๋ค. ์ ๋ ฅ ๋ฌธ์ฅ์ WordPiece tokenizer๋ก ๋๋ ์ง๋ค. object๋ค์ Faster R-CNN์ ์ํด ๊ฐ์ง๋์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ๊ฒ ๊ฐ์ง๋ object๋ ๊ฐ๊ฐ์ ์ด๋ฏธ์ง์ ๋ํด 36๊ฐ์ object ๊น์ง๋ง ์ ์ง์์ผฐ๋๋ฐ, ์ด๋ padding์ ํผํด์ pre-training computing ์ด์ฉ์ ์ต๋ํํ๊ธฐ ์ํ ๊ฒ์ด๋ค. model architecture์ ๋ํด ๋ ์ด์ด $\textbf{N}_{\textbf{L}}, \textbf{N}_{\textbf{X}}, \textbf{N}_{\textbf{R}}$์ ์๋ ๊ฐ๊ฐ 9, 5, 5๋ก ์ค์ ํ์๋ค. language encoder์ ๋ ๋ง์ ๋ ์ด์ด๊ฐ ์ฌ์ฉ๋ ์ด์ ๋ visual feature์ ๋ฐธ๋ฐ์ค๋ฅผ ๋ง์ถ๊ธฐ ์ํด์์๋ค.
4. Experiments
๋ ผ๋ฌธ์์๋ LXMERT์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด VQA์ GQA, NLVR ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค. ๊ทธ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- VQA: LXMERT๋ ์ด์ ์ SoTA ๋ชจ๋ธ๋ณด๋ค ์ ํ๋ ์ธก๋ฉด์์ 'Binary'/'Other' ์ง๋ฌธ ์นดํ ๊ณ ๋ฆฌ์ ๋ํด 2.1%์ 2.4%์ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. LXMERT๋ ๊ณ์ฐ ๋ชจ๋์ ์ฌ์ฉํ์ง ์์์ผ๋ ๊ณ์ฐ ๊ด๋ จ ์ง๋ฌธ์์ ๊ฒฐ๊ณผ๋ ๊ฐ๊ฑฐ๋ ๋ ์ข์์ก๋ค.
- GQA: LXMERT๋ ์ด์ ์ SoTA ๋ชจ๋ธ๋ณด๋ค 3.2% ๋ ํฅ์๋ ์ ํ๋๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด๋ VQA์์๋ณด๋ค ๋ ํฅ์๋ ์ ํ๋์ธ๋ฐ, ์ด๋ GQA๊ฐ ๋ visual์ ์ธ ์ถ๋ก ์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์๊ฐํ๋ค. ์ฌ์ง์ด๋ open-domain question์ ๋ํด์๋ 4.6% ๋ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- NLVR: NLVR์ ์๋นํ ์ด๋ ค์ด visual reasoning ๋ฐ์ดํฐ์ ์ผ๋ก ๋ง์ ์๋๋ค์ด ์คํจํ๋๋ฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์คํจ๋ ๋๊ท๋ชจ pre-training ์์ด๋ ๋ณต์กํ ์๊ฐ ๋ฐ ์ธ์ด task์์ ์๊ฐ๊ณผ ์ธ์ด ๊ฐ์ ์ฐ๊ฒฐ์ด ์ข ๋จ ๊ฐ ํ์ต๋์ง ์์ ์ ์์์ ๋ํ๋ธ๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์ ์๋ก์ด pre-training ์ ๋ต์ ์ฌ์ฉํ๋ฉด ์๋นํ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค. ๋ฌด๋ ค ์ด์ ์ SoTA ๋ชจ๋ธ๋ณด๋ค 22% ๋ ํฅ์๋ ์ ํ๋์ด๋ค!
5. Analysis
์ด ์น์ ์์๋ LXMERT ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฅธ ๋์์ฑ ๊ณผ ๋น๊ตํ๊ฑฐ๋ ๋๋ ๋ชจ๋ธ์ ํน์ ์์/pre-training ์ ๋ต์ ๋ฐฐ์ ํ๋ฉด์ ๋ถ์ํ์๋ค.
5-1. BERT vs. LXMERT
ํ 3์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๋ ผ๋ฌธ์์๋ BERT_BASE pre-trained model์ vision-language task์ ํตํฉํ ์ ์๋ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ํด ๋ ผ์ํ์๊ณ ์ด๊ฒ์ LXMERT์ ๋น๊ตํด๋ณด์๋ค. LXMERT๋ NLVR์์ 74.9%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์์ง๋ง, LXMERT pre-training ์์ด๋ ๋ชจ๋ ๊ฒฐ๊ณผ๋ค์ด 22% ๊ฐ๋ ๋ ๋ฎ์์ก๋ค.
BERT+BUTD Bottom-Up & Top-Down$($BUTD$)$ attention์ GRU๋ฅผ ์ฌ์ฉํ์ฌ ์ง๋ฌธ์ ์ธ์ฝ๋ฉํ ๋ค์์ ๋๋ต์ ์์ธกํ๊ธฐ ์ํด object RoI feature ${f_j}$๋ฅผ ์ฐธ์กฐํ๋ค. ๋ ผ๋ฌธ์์๋ GRU language encoder๋ฅผ BERT๋ก ๋์ฒดํจ์ผ๋ก์จ BUTD์ BERT๋ฅผ ์ ์ฉํ๋ค. ํ 3์ ์ฒซ ๋ฒ์งธ ๋ธ๋ก์์ ๋ณด์ฌ์ง๋ ๊ฒ์ฒ๋ผ, BERT encoder์ ๊ฒฐ๊ณผ๋ LSTM encoder์ ๋น์ทํ๋ค.
BERT+ CrossAtt BUTD๋ ์ค์ง raw RoI feature ${f_j}$๋ง์ object position ${p_j}$๊ณผ object relationship์ ๊ณ ๋ คํ์ง ์๊ณ ๋ฐ์๋ค์ด๊ธฐ ๋๋ฌธ์, ์๋ก์ด position-aware object embedding$($2-1$)$๊ณผ cross-modality layer$($2-2$)$๋ฅผ ์ฌ์ฉํ์ฌ BERT+BUTD๋ฅผ ํฅ์์์ผฐ๋ค. ํ 3์ ๋ ๋ฒ์งธ ๋ธ๋ก์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, ํ๋์ cross-modality layer์ ๊ฒฐ๊ณผ๋ BUTD๋ณด๋ค ๋ซ๋ค. ๊ทธ๋ฆฌ๊ณ cross-modality layer์ ์์ผ๋ฉด ์์์๋ก ์ฑ๋ฅ์ ํฅ์๋๋ค. ํ์ง๋ง cross-modality pre-training์ด ์์ผ๋ฉด, 3๊ฐ ์ด์์ cross-attention layer์ ์ถ๊ฐํ ํ์๋ ๊ฒฐ๊ณผ๊ฐ ์ ์ฒด๋์๋ค. ์ต์ข ๊ฒฐ๊ณผ๋ LXMERT ํ๋ ์์ํฌ์ 3.4% ์ ๋์ ๊ฐญ์ ๊ฐ์ง๊ณ ์์๋ค.
BERT+LXMERT ๋ ผ๋ฌธ์์๋ BERT์ ํ๋ผ๋ฏธํฐ๋ฅผ LXMERT๋ก ๋ถ๋ฌ์ค๋ ์๋๋ฅผ ํ์๊ณ , ์ด๊ฒ์ model training์ ์ฌ์ฉํ๊ฑฐ๋ pre-training์ ์ฌ์ฉํ์๋ค. ๊ทธ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ํ 3์ ๋ง์ง๋ง ๋ธ๋ก์ ๋ํ๋๋ค. from-scratch์ ๋น๊ตํด์ BERT๋ fine-tuning ๊ฒฐ๊ณผ๋ฅผ ํฅ์์์ผฐ์ง๋ง, full model๋ณด๋ค ๋์ฑ ์ฝํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. BERT๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐํ๋ LXMERT๋ฅผ pre-training ํ๋ ๊ฒ์ ์ฒซ 3๊ฐ์ pre-training epoch์์๋ ๋ฎ์ pre-training loss๋ฅผ ๋ณด์ฌ์คฌ์ง๋ง ๊ธ๋ฐฉ from-scratch์๊ฒ ๋ฐ๋ผ ์กํ๋ค. ๊ฐ๋ฅํ ์ด์ ๋ BERT๊ฐ ์ด๋ฏธ single-modality masked LM์ผ๋ก pre-train ๋์๊ธฐ ๋๋ฌธ์ vision-modality๊ณผ์ ์ฐ๊ฒฐ์ ๊ณ ๋ คํ์ง ์๊ณ language-modality๋ง์ผ๋ก ์ ์ํํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
5-2. Effect of the Image QA Pre-training Task
๋ ผ๋ฌธ์์๋ image QA pre-training task์ ์ค์์ฑ์ image QA๋ฅผ ์์ ๊ฑฐ๋ ๋ค๋ฅธ ๋์์ฑ ์ผ๋ก ๋์ฒดํจ์ผ๋ก์จ ๋ณด์ฌ์คฌ๋ค: data augmentation.
Pre-training w/ or w/o Image QA ๊ณต์ ํ๊ฒ original pre-training ํ๋ก์์ ๋ฅผ ๋น๊ตํ๊ธฐ ์ํด, LXMERT๋ฅผ image QA task๋ฅผ 20 epoch ๋์ ์ฌ์ฉํ์ง ์๊ณ pre-train ํ์๋ค. ํ 4์ 2ํ๊ณผ 4ํ์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ QA loss๋ฅผ ์ฌ์ฉํ์ฌ pre-training ํ๋ ๊ฒ์ 3๊ฐ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ํฅ์์์ผฐ๋ค. NLVR์์ ๋ณด์ธ 2.1%์ ํฅ์์ image-QA pre-training์ ์ฌ์ฉํ์ฌ ํ์ต๋ ๊ฐ๋ ฅํ representation์ ๋ณด์ฌ์ค๋ค. ์๋ํ๋ฉด NLVR์ ๋ชจ๋ ๋ฐ์ดํฐ๋ pre-training์ ์ฌ์ฉ๋์ง ์๊ธฐ ๋๋ฌธ์ด๋ค.
Pre-training vs. Data Augmentation data augmentation$($DA$)$๋ ์ฌ๋ฌ ๊ฐ์ VQA ๊ตฌํ์ ์ฌ์ฉ๋๋ ๊ธฐ์ ์ด๋ค. ์ด๊ฒ์ ๋ค๋ฅธ image QA ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ง๋ฌธ์ ์ถ๊ฐํจ์ผ๋ก์จ ํ์ต ๋ฐ์ดํฐ์ ์์ ์ฆ๊ฐ์ํจ๋ค. LXMERT ํ๋ ์์ํฌ๋ ๋์ ์ pre-training์์ multiple QA ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๊ณ ํ๋์ ๊ตฌ์ฒด์ ๋ฐ์ดํฐ์ ์์ fine-tune ๋๋ค. pre-training๊ณผ DA์์ ์ฌ์ฉ๋๋ ์ ๋ฐ์ ์ธ ๋ฐ์ดํฐ์ ์์ ๋น์ทํ๊ธฐ ๋๋ฌธ์, ์ด ๋ ๊ฐ์ ์ ๋ต์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ค. ๊ฒฐ๊ณผ๋ QA pre-training ๋ฐฉ์์ด DA๋ฅผ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค.
5-3. Effect of Vision Pre-training tasks
๋ ผ๋ฌธ์์๋ ์๋ก ๋ค๋ฅธ vision pre-training task์ ํจ๊ณผ์ ๋ํด ๋ถ์ํ์๋ค$($ํ 5 ์ฐธ๊ณ $)$. pre-training์์ ์ด๋ ํ vision task๋ฅผ ์ํํ์ง ์์์ ๊ฒฝ์ฐ, ๊ฒฐ๊ณผ๋ BERT + 3 CrossAtt$($ํ 3$)$๊ณผ ์ ์ฌํ์๋ค. ๋ ๊ฐ์ visual pre-training task์ธ RoI-feature regression๊ณผ detected-label classification์ ์ด๋ค๋ง์ผ๋ก๋ ์ ์ ํ ๊ฒฐ๊ณผ$($2ํ & 3ํ$)$๋ฅผ ์ป์ด๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ ๊ฐ์ task๋ฅผ ์ฌ์ฉํ ๊ณต๋ pre-training์ ๊ฐ์ฅ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์๋ค$($4ํ$)$.
์ถ์ฒ
https://arxiv.org/abs/1908.07490