๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ์์ํ๊ธฐ ์ ์ ์ด๋ฒ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ full paper๋ฅผ ์ฝ๊ณ ์์ฑํ๋ ๋ฆฌ๋ทฐ๊ฐ ์๋๋ผ๋ ์ ๊ฐ์ํ๊ธธ ๋ฐ๋๋ค. ์๋๋ full paper๋ฅผ ์ฝ์ด๋ณด๋ ค๊ณ ํ์์ผ๋, ์ด ๋ ผ๋ฌธ์์ ์๊ฐํ๊ณ ์ ํ๋ ๊ฒ์ด ๋ฑํ ์๋ก์ด ๊ธฐ์ ์ ์๊ฐ๊ฐ ์๋ ๋ ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋๋ค๊ณ ์๊ฐํ์ฌ Microsoft Blog๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค.
The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ vision language(VL) task์ ๋ํ visual representation์ ํฅ์์ํค๋ ๋ํ ์ผํ ์ฐ๊ตฌ๋ฅผ ์งํํ๊ณ ์ด๋ฏธ์ง์์ object ์ค์ฌ์ representation์ ์ ๊ณตํ๊ธฐ ์ํ ๊ฐ์ ๋ object detection model์ ๊ฐ๋ฐํ์๋ค. ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ๋ ผ๋ฌธ์์ ์๊ฐํ๋ ๋ชจ๋ธ์ ๋์ฑ ํฌ๊ณ , VL task์ ๋ํด ๋์ฑ ์ ๋์์ธ ๋์ด ์๊ณ , ๋ค์ํ ๊ณต๊ณต annotated object detection ๋ฐ์ดํฐ์ ์ ํฉ์น ๋์ฑ ํฐ training corpora์์ pre-train ๋์๋ค. ๋ฐ๋ผ์ ์ด ๋ชจ๋ธ์ ๋์ฑ ํ๋ถํ visual object์ concept์ ๋ชจ์์ representation์ ์์ฑํ ์ ์๋ค. ๋ฐ๋ฉด์ ์ด์ ์ VL ์ฐ๊ตฌ๋ค์ vision-language ๋ชจ๋ธ์ ํฅ์์ํค๋๋ฐ๋ง ์ง์คํ๊ณ object detection ๋ชจ๋ธ์ ๊ฐ์ ์ ๊ฑด๋ค์ง ์์์, ์ด ๋ ผ๋ฌธ์์๋ VL ๋ชจ๋ธ์์ visual feature๊ฐ ์ผ๋ง๋ ์๋นํ ์ํฅ์ ๋ฏธ์น๋์ง ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์ ์คํ์์๋ ์๋ก์ด object detection ๋ชจ๋ธ๋ก๋ถํฐ ์์ฑ๋ visual feature๋ฅผ Transformer ๊ธฐ๋ฐ VL model์ธ OSCAR์ ๋ฃ๊ณ , VL model์ pre-train ํ๊ณ ๋ค์ํ downstream VL task์์ fine-tune ํ๊ธฐ ์ํด ๋ ๊ฐ์ ๋ ๋ฐฉ๋ฒ์ธ OSCAR+๋ฅผ ์ฌ์ฉํ์๋ค.
Introduction
๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ, ๊ธฐ์กด์ VL system์ VL understanding์ ์ํด 2๊ฐ์ ๋ชจ๋์ ์ฌ์ฉํ๋ modular architecture์ ์ฌ์ฉํ๋ค.
- Image encoding module: visual feature extractor๋ก ์๋ ค์ ธ ์๋ ๊ฒ์ฒ๋ผ, ์ ๋ ฅ ์ด๋ฏธ์ง์ feature map ์์ฑ์ ์ํด CNN์ ์ฌ์ฉํด์ ๊ตฌํํ๋ค. Fast-RCNN์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ณดํธ์ ์ด๋ค.
- Vision-language fusion module: ์ธ์ฝ๋ฉ๋ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋๊ฐ์ semantic space๋ก ๋งคํํด์ ์ด๋ค์ semantic ์ ์ฌ๋๋ ์ด ๋ฒกํฐ๋ค ๊ฐ์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ์ฉํด์ ๊ณ์ฐ๋๋ค. ๋ณดํต OSCAR ๊ฐ์ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ตฌํ๋๋ค.
์ต๊ทผ์ vision-language pre-training(VLP)๋ ๋๊ท๋ชจ์ image-text ์ corpus์์ pre-training ํจ์ผ๋ก์จ vision-language fusion module์ ํฅ์์ํค๋ ๊ฒ์ ๋ํด ํฐ ๋ฐ์ ์ ์ด๋ฃฉํ์๋ค. ์ด๋ ๊ฐ์ฅ ์ ํ์ ์ธ ๋ฐฉ๋ฒ์ ๊ฑฐ๋ํ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ฐฉ๋ํ image-text ์ ๋ฐ์ดํฐ์์ ํ์ต์ํค๋ ๊ฒ์ด๋ค. pre-trained vision-language fusion model ๋ํ ๋ค์ํ downstream vision-language task์ ์ ์ฉํ๊ธฐ ์ํด fine-tune ๋ ์ ์๋ค. ํ์ง๋ง, ๊ธฐ์กด์ VLP method๋ค์ image encoding module์ ๋ธ๋๋ฐ์ค๋ก ๋๊ณ visual feature ๊ฐ์ ์ ๊ฑด๋๋ฆฌ์ง ์์๋ค. ๋ ๋์ ๊ธฐ์ ์ ์ฌ์ฉํ ์ ์์์์๋ 2017๋ ์ ๊ฐ๋ฐ๋ ๊ธฐ์ ์ ์์ง๊น์ง ์ฌ์ฉํ๊ณ ์๋ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์, ๋ ผ๋ฌธ์์๋ image encoding ๋ชจ๋์ ํฅ์์ํค๊ธฐ ์ํ ์ฐ๊ตฌ๋ฅผ ์๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ์ํ ์๋ก์ด object-attribute detection model์ธ VinVL(Visual features in Vision-Language)์ ์๊ฐํ์๋ค. ์ด VinVL์ SoTA ๋ชจ๋ธ์ธ OSCAR์ VIVO์ ํฉ์น๋, 7๊ฐ์ ์ฃผ์ํ VL ๋ฒค์น๋งํฌ์์ ์์ ํฌ์ง์ ์ ์ฐจ์งํ ์ ์์๋ค.
VinVL: A generic object-attribute detection model
object detection ๊ฐ์ ์ผ๋ฐ์ ์ธ computer vision task์ ๋ฌ๋ฆฌ, VL task๋ ๋์ฑ ๋ค์ํ visual concept์ ๋ํ ์ดํด์ text modality์์ ํด๋นํ๋ conmcept์์ ์ ๋ ฌ์ ํ์๋ก ํ๋ค. ๋๋ถ๋ถ์ object detection ๋ฒค์น๋งํฌ๋ 600๊ฐ ์ด์์ objec class์ ๋ํ annotation์ ํฌํจํ๊ณ ์๋ค. ์ด ํด๋์ค๋ค์ ์ ์ ์๋ ๋ชจ์์ object์ ์ฃผ๋ก ์ง์คํ์ง๋ง, ์ด๋ฏธ์ง๋ฅผ ๋ฌ์ฌํ๋๋ฐ ์ ์ฉํ ๋ฌด์ ํ์ ์์ญ๋ค์ ๋ํด์๋ ๋์ณ๋ฒ๋ฆฐ๋ค. ์ ํ๋๊ณ ํธํฅ์ ์ธ object class๋ ์ด๋ฌํ object detection ๋ฐ์ดํฐ์ ์ด ์ค์ธ๊ณ ํ์ฉ์ ๋งค์ฐ ์ ์ฉํ VL understanding ๋ชจ๋ธ์ ํ์ต์ํค๋๋ฐ ๋ถ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Dataset. ๋ ผ๋ฌธ์์๋ VL task๋ฅผ ์ํ object-attribute detection ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด, 4๊ฐ์ ๊ณต๊ณต object detection ๋ฐ์ดํฐ์ (COCO, Open Images, Object365, VG)์ ํฉ์ณ์ 1,848๊ฐ์ object class์ 524๊ฐ์ attribute class์ ๋ํ 2.49M ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ ๊ฑฐ๋ํ object detection ๋ฐ์ดํฐ์ ์ ๋ง๋ค์๋ค. ๋ ผ๋ฌธ์์๋ object-attribute detection ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด pre-training & fine-tuning ์ ๋ต์ ์ฌ์ฉํ์๋ค.
- ํฉ์ณ์ง ๋ฐ์ดํฐ์ ์์ object detection ๋ชจ๋ธ์ pre-train ์ํด
- VG์์ ์ถ๊ฐ์ attribute branch๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ fine-tune. ์ด๋ object์ attribute ๋ ๋ค ๊ฐ์งํ ์ ์๊ฒ ํด์ค.
๊ทธ ๊ฒฐ๊ณผ๋ก ์ป์ด์ง object-attribute detection ๋ชจ๋ธ์ด 152๊ฐ์ convolutional layer์ 133M๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ Faster-RCNN ๋ชจ๋ธ์ธ 'ResNeXt-152 C4'์ด๋ค.
๋ ผ๋ฌธ์ object-attribute detection ๋ชจ๋ธ์ 1,594๊ฐ์ object class์ 524๊ฐ์ visual attribute๋ฅผ ๊ฐ์งํ ์ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๊ฑฐ์ ๋ชจ๋ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ ์์ญ์ ๊ฐ์งํ๊ณ ์ธ์ฝ๋ฉํ ์ ์์๋ค. ๊ทธ๋ฆผ 2์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ, ์ผ๋ฐ์ ์ธ object detection ๋ชจ๋ธ๋ณด๋ค ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ด ํจ์ฌ ๋ ๋ง์ visual object์ attribute๋ฅผ ๊ฐ์งํ๊ณ ๋ ํ๋ถํ visual feature์ ์ฌ์ฉํ์ฌ ์ด๋ค์ ์ธ์ฝ๋ฉํ ์ ์๋ค. ์ด๋ ๊ด๋ฒ์ํ VL task์์ ๋งค์ฐ ์ค์ํ๋ค.
OSCAR+
๋ ผ๋ฌธ์์๋ image-text ์ ๋ ฌ์ ๋ํ anchor๋ก image tag๋ฅผ ์ฌ์ฉํด์ ๊ณต๋ image-text representation์ ํ์ตํ๊ธฐ ์ํด OSCAR์ ๊ฐ์ ๋ ๋ฒ์ ์ด OSCAR+๋ฅผ pre-train ํด์ ์ฌ์ฉํ์๋ค. OSCAR+์ pre-training objective๋ก๋ Masked Token Loss์ ๊ธฐ์กด OSCAR์ binary contrastive loss์์ ์กฐ๊ธ ๋ฌ๋ผ์ง 3-way Contrastive Loss๋ฅผ ์ฌ์ฉํ์๋ค. ๋ค์์ ์์์ OSCAR+์ pre-training loss์ด๋ค.
์์ ์์์์ $\mathfrak{L}_{MTL}$์ Masked Token Loss์ด๊ณ , $\mathfrak{L}_{CL3}$์ 3-way Contrastive Loss์ด๋ค. ๋จผ์ 3-way contrastive loss๋ถํฐ ์ดํด๋ณด๋ฉด ์๋์ ์์๊ณผ $\mathfrak{L}_{CL3}$๋ ์ด๋ฏธ์ง ์บก์ ๋ฐ ์ด๋ฏธ์ง ํ๊น ๋ฐ์ดํฐ์ {caption, image-tags, image-features} ์ผ์คํญ๊ณผ VQA ๋ฐ์ดํฐ์ {question, answer, image-features} ์ผ์คํญ์ ๋ ๊ฐ์ง ์ ํ์ ํ์ต ์ํ $textbf{x}$๋ฅผ ๊ณ ๋ คํ๋ค.
contrastive loss๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด, negative example์ด ๋ง๋ค์ด์ ธ์ผ ํ ํ์๊ฐ ์๋ค. ๋ ผ๋ฌธ์์๋ ํ์ต ์ํ์ ๋ ๊ฐ์ง ์ ํ์ ๋ํ ๋ ๊ฐ์ง ์ ํ์ negative(์ผ์นํ์ง ์๋) ์ผ์คํญ์ ๋ง๋ค์๋ค. ํ๋๋ '์ค์ผ๋(polluted)' ์บก์ $(\textbf{w}', \textbf{q}, \textbf{v})$์ด๊ณ , ๋ค๋ฅธ ํ๋๋ '์ค์ผ๋' ๋๋ต $(\textbf{w}, \textbf{q}', \textbf{v})$์ด๋ค. ์ด๋ฅผ ์ด์ฉํด์ ์ํํ๋ task๋ ๋ค์๊ณผ ๊ฐ๋ค.
- text-image matching: caption-tag-image ์ผ์คํญ์ด ์ค์ผ๋ ์บก์ ์ ํฌํจํ๋์ง ๋ถ๋ฅ
- VQA์ ๋๋ต ์ ํ: question-answer-image ์ผ์คํญ์ด ์ค์ผ๋ ๋๋ต์ ํฌํจํ๋์ง ๋ถ๋ฅ
[CLS]์ ์ธ์ฝ๋ฉ์ด ์ผ์คํญ $(\textbf{w}, \textbf{q}, \textbf{v})$์ representation์ผ๋ก ๋ณด์ด๊ธฐ ๋๋ฌธ์ ๊ทธ ์์ fully-connected(FC) ๋ ์ด์ด๋ฅผ 3-way classifier $f(.)$๋ก ์ ์ฉํ์ฌ ์ผ์คํญ์ด ์ผ์นํ๋์ง$(c = 0)$, ์ค์ผ๋ $\textbf{w}$๋ฅผ ํฌํจํ๋์ง$(c = 1)$ ๋๋ ์ค์ผ๋ $\textbf{q}$ $(c = 2)$์ ํฌํจํ๋์ง ์์ธกํ๋ค. 3-way contrastive loss๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
Comparison with SoTA Models on Vision-Language Tasks
VL system์์ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ ๋ชจ๋์ fundamental์ด๊ธฐ ๋๋ฌธ์, ๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ, VL task์์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ ผ๋ฌธ์ ์๋ก์ด ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ๊ธฐ์กด์ VL fusion module๋ค๊ณผ ํจ๊ป ์ฌ์ฉ๋ ์ ์๋ค. ์๋ฅผ ๋ค์ด์ ํ 1์ ๋์์๋ ๊ฒ์ฒ๋ผ ์ธ๊ธฐ ์๋ bottom-up ๋ชจ๋ธ์์ ์์ฑ๋ visual feature๋ฅผ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์์ ์์ฑ๋ visual feature์ผ๋ก ๊ฐ๋จํ ๋์ฒดํ์ง๋ง VL fusion model(OSCAR ๋ฐ VIVO)์ ๊ทธ๋๋ก ์ ์งํจ์ผ๋ก์จ ๋ ผ๋ฌธ์์๋ 7๊ฐ์ง VL task ๋ชจ๋์์ ์๋นํ ๊ฐ์ ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด์ SoTA ๋ชจ๋ธ๋ณด๋ค ์๋นํ ํฐ ์ฐจ์ด๊ฐ ์์๋ค. ์ฌ์ง์ด๋ VinVL base model์ด ์ด์ ์ large model์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ๋ ๋์ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ์ฌ์ฉํ๋ฉด VL fusion module์ ๋์ฑ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์ถ์ฒ
VinVL: Advancing the state of the art for vision-language models - Microsoft Research
https://arxiv.org/abs/2101.00529