๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ์์ํ๊ธฐ ์ ์ ์ด๋ฒ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ full paper๋ฅผ ์ฝ๊ณ ์์ฑํ๋ ๋ฆฌ๋ทฐ๊ฐ ์๋๋ผ๋ ์ ๊ฐ์ํ๊ธธ ๋ฐ๋๋ค. ์๋๋ full paper๋ฅผ ์ฝ์ด๋ณด๋ ค๊ณ ํ์์ผ๋, ์ด ๋ ผ๋ฌธ์์ ์๊ฐํ๊ณ ์ ํ๋ ๊ฒ์ด ๋ฑํ ์๋ก์ด ๊ธฐ์ ์ ์๊ฐ๊ฐ ์๋ ๋ ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋๋ค๊ณ ์๊ฐํ์ฌ Microsoft Blog๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค.
The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ vision language(VL) task์ ๋ํ visual representation์ ํฅ์์ํค๋ ๋ํ ์ผํ ์ฐ๊ตฌ๋ฅผ ์งํํ๊ณ ์ด๋ฏธ์ง์์ object ์ค์ฌ์ representation์ ์ ๊ณตํ๊ธฐ ์ํ ๊ฐ์ ๋ object detection model์ ๊ฐ๋ฐํ์๋ค. ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ๋ ผ๋ฌธ์์ ์๊ฐํ๋ ๋ชจ๋ธ์ ๋์ฑ ํฌ๊ณ , VL task์ ๋ํด ๋์ฑ ์ ๋์์ธ ๋์ด ์๊ณ , ๋ค์ํ ๊ณต๊ณต annotated object detection ๋ฐ์ดํฐ์ ์ ํฉ์น ๋์ฑ ํฐ training corpora์์ pre-train ๋์๋ค. ๋ฐ๋ผ์ ์ด ๋ชจ๋ธ์ ๋์ฑ ํ๋ถํ visual object์ concept์ ๋ชจ์์ representation์ ์์ฑํ ์ ์๋ค. ๋ฐ๋ฉด์ ์ด์ ์ VL ์ฐ๊ตฌ๋ค์ vision-language ๋ชจ๋ธ์ ํฅ์์ํค๋๋ฐ๋ง ์ง์คํ๊ณ object detection ๋ชจ๋ธ์ ๊ฐ์ ์ ๊ฑด๋ค์ง ์์์, ์ด ๋ ผ๋ฌธ์์๋ VL ๋ชจ๋ธ์์ visual feature๊ฐ ์ผ๋ง๋ ์๋นํ ์ํฅ์ ๋ฏธ์น๋์ง ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์ ์คํ์์๋ ์๋ก์ด object detection ๋ชจ๋ธ๋ก๋ถํฐ ์์ฑ๋ visual feature๋ฅผ Transformer ๊ธฐ๋ฐ VL model์ธ OSCAR์ ๋ฃ๊ณ , VL model์ pre-train ํ๊ณ ๋ค์ํ downstream VL task์์ fine-tune ํ๊ธฐ ์ํด ๋ ๊ฐ์ ๋ ๋ฐฉ๋ฒ์ธ OSCAR+๋ฅผ ์ฌ์ฉํ์๋ค.
Introduction
๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ, ๊ธฐ์กด์ VL system์ VL understanding์ ์ํด 2๊ฐ์ ๋ชจ๋์ ์ฌ์ฉํ๋ modular architecture์ ์ฌ์ฉํ๋ค.
- Image encoding module: visual feature extractor๋ก ์๋ ค์ ธ ์๋ ๊ฒ์ฒ๋ผ, ์ ๋ ฅ ์ด๋ฏธ์ง์ feature map ์์ฑ์ ์ํด CNN์ ์ฌ์ฉํด์ ๊ตฌํํ๋ค. Fast-RCNN์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ณดํธ์ ์ด๋ค.
- Vision-language fusion module: ์ธ์ฝ๋ฉ๋ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋๊ฐ์ semantic space๋ก ๋งคํํด์ ์ด๋ค์ semantic ์ ์ฌ๋๋ ์ด ๋ฒกํฐ๋ค ๊ฐ์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ์ฉํด์ ๊ณ์ฐ๋๋ค. ๋ณดํต OSCAR ๊ฐ์ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ตฌํ๋๋ค.
์ต๊ทผ์ vision-language pre-training(VLP)๋ ๋๊ท๋ชจ์ image-text ์ corpus์์ pre-training ํจ์ผ๋ก์จ vision-language fusion module์ ํฅ์์ํค๋ ๊ฒ์ ๋ํด ํฐ ๋ฐ์ ์ ์ด๋ฃฉํ์๋ค. ์ด๋ ๊ฐ์ฅ ์ ํ์ ์ธ ๋ฐฉ๋ฒ์ ๊ฑฐ๋ํ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ฐฉ๋ํ image-text ์ ๋ฐ์ดํฐ์์ ํ์ต์ํค๋ ๊ฒ์ด๋ค. pre-trained vision-language fusion model ๋ํ ๋ค์ํ downstream vision-language task์ ์ ์ฉํ๊ธฐ ์ํด fine-tune ๋ ์ ์๋ค. ํ์ง๋ง, ๊ธฐ์กด์ VLP method๋ค์ image encoding module์ ๋ธ๋๋ฐ์ค๋ก ๋๊ณ visual feature ๊ฐ์ ์ ๊ฑด๋๋ฆฌ์ง ์์๋ค. ๋ ๋์ ๊ธฐ์ ์ ์ฌ์ฉํ ์ ์์์์๋ 2017๋ ์ ๊ฐ๋ฐ๋ ๊ธฐ์ ์ ์์ง๊น์ง ์ฌ์ฉํ๊ณ ์๋ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์, ๋ ผ๋ฌธ์์๋ image encoding ๋ชจ๋์ ํฅ์์ํค๊ธฐ ์ํ ์ฐ๊ตฌ๋ฅผ ์๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ์ํ ์๋ก์ด object-attribute detection model์ธ VinVL(Visual features in Vision-Language)์ ์๊ฐํ์๋ค. ์ด VinVL์ SoTA ๋ชจ๋ธ์ธ OSCAR์ VIVO์ ํฉ์น๋, 7๊ฐ์ ์ฃผ์ํ VL ๋ฒค์น๋งํฌ์์ ์์ ํฌ์ง์ ์ ์ฐจ์งํ ์ ์์๋ค.
VinVL: A generic object-attribute detection model
object detection ๊ฐ์ ์ผ๋ฐ์ ์ธ computer vision task์ ๋ฌ๋ฆฌ, VL task๋ ๋์ฑ ๋ค์ํ visual concept์ ๋ํ ์ดํด์ text modality์์ ํด๋นํ๋ conmcept์์ ์ ๋ ฌ์ ํ์๋ก ํ๋ค. ๋๋ถ๋ถ์ object detection ๋ฒค์น๋งํฌ๋ 600๊ฐ ์ด์์ objec class์ ๋ํ annotation์ ํฌํจํ๊ณ ์๋ค. ์ด ํด๋์ค๋ค์ ์ ์ ์๋ ๋ชจ์์ object์ ์ฃผ๋ก ์ง์คํ์ง๋ง, ์ด๋ฏธ์ง๋ฅผ ๋ฌ์ฌํ๋๋ฐ ์ ์ฉํ ๋ฌด์ ํ์ ์์ญ๋ค์ ๋ํด์๋ ๋์ณ๋ฒ๋ฆฐ๋ค. ์ ํ๋๊ณ ํธํฅ์ ์ธ object class๋ ์ด๋ฌํ object detection ๋ฐ์ดํฐ์ ์ด ์ค์ธ๊ณ ํ์ฉ์ ๋งค์ฐ ์ ์ฉํ VL understanding ๋ชจ๋ธ์ ํ์ต์ํค๋๋ฐ ๋ถ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Dataset. ๋ ผ๋ฌธ์์๋ VL task๋ฅผ ์ํ object-attribute detection ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด, 4๊ฐ์ ๊ณต๊ณต object detection ๋ฐ์ดํฐ์ (COCO, Open Images, Object365, VG)์ ํฉ์ณ์ 1,848๊ฐ์ object class์ 524๊ฐ์ attribute class์ ๋ํ 2.49M ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ ๊ฑฐ๋ํ object detection ๋ฐ์ดํฐ์ ์ ๋ง๋ค์๋ค. ๋ ผ๋ฌธ์์๋ object-attribute detection ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด pre-training & fine-tuning ์ ๋ต์ ์ฌ์ฉํ์๋ค.
- ํฉ์ณ์ง ๋ฐ์ดํฐ์ ์์ object detection ๋ชจ๋ธ์ pre-train ์ํด
- VG์์ ์ถ๊ฐ์ attribute branch๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ fine-tune. ์ด๋ object์ attribute ๋ ๋ค ๊ฐ์งํ ์ ์๊ฒ ํด์ค.
๊ทธ ๊ฒฐ๊ณผ๋ก ์ป์ด์ง object-attribute detection ๋ชจ๋ธ์ด 152๊ฐ์ convolutional layer์ 133M๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ Faster-RCNN ๋ชจ๋ธ์ธ 'ResNeXt-152 C4'์ด๋ค.
๋ ผ๋ฌธ์ object-attribute detection ๋ชจ๋ธ์ 1,594๊ฐ์ object class์ 524๊ฐ์ visual attribute๋ฅผ ๊ฐ์งํ ์ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๊ฑฐ์ ๋ชจ๋ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ ์์ญ์ ๊ฐ์งํ๊ณ ์ธ์ฝ๋ฉํ ์ ์์๋ค. ๊ทธ๋ฆผ 2์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ, ์ผ๋ฐ์ ์ธ object detection ๋ชจ๋ธ๋ณด๋ค ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ด ํจ์ฌ ๋ ๋ง์ visual object์ attribute๋ฅผ ๊ฐ์งํ๊ณ ๋ ํ๋ถํ visual feature์ ์ฌ์ฉํ์ฌ ์ด๋ค์ ์ธ์ฝ๋ฉํ ์ ์๋ค. ์ด๋ ๊ด๋ฒ์ํ VL task์์ ๋งค์ฐ ์ค์ํ๋ค.
OSCAR+
๋ ผ๋ฌธ์์๋ image-text ์ ๋ ฌ์ ๋ํ anchor๋ก image tag๋ฅผ ์ฌ์ฉํด์ ๊ณต๋ image-text representation์ ํ์ตํ๊ธฐ ์ํด OSCAR์ ๊ฐ์ ๋ ๋ฒ์ ์ด OSCAR+๋ฅผ pre-train ํด์ ์ฌ์ฉํ์๋ค. OSCAR+์ pre-training objective๋ก๋ Masked Token Loss์ ๊ธฐ์กด OSCAR์ binary contrastive loss์์ ์กฐ๊ธ ๋ฌ๋ผ์ง 3-way Contrastive Loss๋ฅผ ์ฌ์ฉํ์๋ค. ๋ค์์ ์์์ OSCAR+์ pre-training loss์ด๋ค.
์์ ์์์์ $\mathfrak{L}_{MTL}$์ Masked Token Loss์ด๊ณ , $\mathfrak{L}_{CL3}$์ 3-way Contrastive Loss์ด๋ค. ๋จผ์ 3-way contrastive loss๋ถํฐ ์ดํด๋ณด๋ฉด ์๋์ ์์๊ณผ $\mathfrak{L}_{CL3}$๋ ์ด๋ฏธ์ง ์บก์ ๋ฐ ์ด๋ฏธ์ง ํ๊น ๋ฐ์ดํฐ์ {caption, image-tags, image-features} ์ผ์คํญ๊ณผ VQA ๋ฐ์ดํฐ์ {question, answer, image-features} ์ผ์คํญ์ ๋ ๊ฐ์ง ์ ํ์ ํ์ต ์ํ $textbf{x}$๋ฅผ ๊ณ ๋ คํ๋ค.
contrastive loss๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด, negative example์ด ๋ง๋ค์ด์ ธ์ผ ํ ํ์๊ฐ ์๋ค. ๋ ผ๋ฌธ์์๋ ํ์ต ์ํ์ ๋ ๊ฐ์ง ์ ํ์ ๋ํ ๋ ๊ฐ์ง ์ ํ์ negative(์ผ์นํ์ง ์๋) ์ผ์คํญ์ ๋ง๋ค์๋ค. ํ๋๋ '์ค์ผ๋(polluted)' ์บก์ $(\textbf{w}', \textbf{q}, \textbf{v})$์ด๊ณ , ๋ค๋ฅธ ํ๋๋ '์ค์ผ๋' ๋๋ต $(\textbf{w}, \textbf{q}', \textbf{v})$์ด๋ค. ์ด๋ฅผ ์ด์ฉํด์ ์ํํ๋ task๋ ๋ค์๊ณผ ๊ฐ๋ค.
- text-image matching: caption-tag-image ์ผ์คํญ์ด ์ค์ผ๋ ์บก์ ์ ํฌํจํ๋์ง ๋ถ๋ฅ
- VQA์ ๋๋ต ์ ํ: question-answer-image ์ผ์คํญ์ด ์ค์ผ๋ ๋๋ต์ ํฌํจํ๋์ง ๋ถ๋ฅ
[CLS]์ ์ธ์ฝ๋ฉ์ด ์ผ์คํญ $(\textbf{w}, \textbf{q}, \textbf{v})$์ representation์ผ๋ก ๋ณด์ด๊ธฐ ๋๋ฌธ์ ๊ทธ ์์ fully-connected(FC) ๋ ์ด์ด๋ฅผ 3-way classifier $f(.)$๋ก ์ ์ฉํ์ฌ ์ผ์คํญ์ด ์ผ์นํ๋์ง$(c = 0)$, ์ค์ผ๋ $\textbf{w}$๋ฅผ ํฌํจํ๋์ง$(c = 1)$ ๋๋ ์ค์ผ๋ $\textbf{q}$ $(c = 2)$์ ํฌํจํ๋์ง ์์ธกํ๋ค. 3-way contrastive loss๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
Comparison with SoTA Models on Vision-Language Tasks
VL system์์ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ ๋ชจ๋์ fundamental์ด๊ธฐ ๋๋ฌธ์, ๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ, VL task์์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ ผ๋ฌธ์ ์๋ก์ด ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ๊ธฐ์กด์ VL fusion module๋ค๊ณผ ํจ๊ป ์ฌ์ฉ๋ ์ ์๋ค. ์๋ฅผ ๋ค์ด์ ํ 1์ ๋์์๋ ๊ฒ์ฒ๋ผ ์ธ๊ธฐ ์๋ bottom-up ๋ชจ๋ธ์์ ์์ฑ๋ visual feature๋ฅผ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์์ ์์ฑ๋ visual feature์ผ๋ก ๊ฐ๋จํ ๋์ฒดํ์ง๋ง VL fusion model(OSCAR ๋ฐ VIVO)์ ๊ทธ๋๋ก ์ ์งํจ์ผ๋ก์จ ๋ ผ๋ฌธ์์๋ 7๊ฐ์ง VL task ๋ชจ๋์์ ์๋นํ ๊ฐ์ ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด์ SoTA ๋ชจ๋ธ๋ณด๋ค ์๋นํ ํฐ ์ฐจ์ด๊ฐ ์์๋ค. ์ฌ์ง์ด๋ VinVL base model์ด ์ด์ ์ large model์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ๋ ๋์ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ์ฌ์ฉํ๋ฉด VL fusion module์ ๋์ฑ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์ถ์ฒ
VinVL: Advancing the state of the art for vision-language models - Microsoft Research
VinVL: Advancing the state of the art for vision-language models - Microsoft Research
Humans understand the world by perceiving and fusing information from multiple channels, such as images viewed by the eyes, voices heard by the ears, and other forms of sensory input. One of the core aspirations in AI is to develop algorithms that endow co
www.microsoft.com
https://arxiv.org/abs/2101.00529
VinVL: Revisiting Visual Representations in Vision-Language Models
This paper presents a detailed study of improving visual representations for vision language (VL) tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used \emph{bottom-up an
arxiv.org
VinVL: Revisiting Visual Representations in Vision-Language Models
This paper presents a detailed study of improving visual representations for vision language (VL) tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used \emph{bottom-up an
arxiv.org