The overview of this paper
๋๋ถ๋ถ์ Vision-Language Pre-training(VLP)๋ ๋ค์ํ vision-language task์์ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, ๋๋ถ๋ถ์ odel๋ค์ understanding ๊ธฐ๋ฐ ์ด๊ฑฐ๋ generation ๊ธฐ๋ฐ ๋ ์ค์ ํ๋์์ ์๋ํ๋ค. ๊ฒ๋ค๊ฐ, ์ฑ๋ฅ ํฅ์์ ๋๋ถ๋ถ ์น์์ ์์ง๋ noisy image-text ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ๋ฅผ ๋๋ฆผ์ผ๋ก์จ ์ป์ด์ง๊ฒ ๋๋๋ฐ, ์ด๊ฒ์ ์ฐจ์ ์ supervision์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ vision-language understanding & generation์ ์ ๋์ ์ผ๋ก ์ ๋ฌํ๋ ์๋ก์ด VLP ํ๋ ์์ํฌ์ธ BLIP์ ์๊ฐํ์๋ค. BLIP์ ์บก์ ์ bootstrapping ํจ์ผ๋ก์จ noisy web data๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋๋ฐ, ์ฌ๊ธฐ์ captioner๋ ์บก์ ์ ์์ฑํ๊ณ filter๋ noisy ์บก์ ์ ์ ๊ฑฐํ๋ค. bootstrap์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์์ ๋ณต์ ์ถ์ถ์ ํตํด ์๋ก์ด ์ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Table of Contents
1. Introduction
2. Method
2-1. Model Architecture
2-2. Pre-training Objectives
2-3. CapFilt
3. Experiments & Discussions
4. Comparison with State-of-the-arts
5. Ablation Study
1. Introduction
Vision-language pre-training์ ๋ค์ํ multi-modal downstream task์์ ์์ฒญ๋ ์ฑ๊ณต๋ค์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง, ๊ธฐ์กด์ method๋ค์ ๋ค์์ 2๊ฐ์ ํ๊ณ์ ์ ๊ฐ์ง๊ณ ์๋ค.
- ๋ชจ๋ธ ๊ด์ : encoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ generation task์ ๋ํด์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง ๋ชป ํจ & encoder-decoder ๋ชจ๋ธ์ image-text retrieval task์ ๋ํด์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง ๋ชป ํจ.
- ๋ฐ์ดํฐ ๊ด์ : SoTA ๋ชจ๋ธ๋ค์ธ CLIP, ALBEF, SimVLM์ ์น์์ ์์ง๋ image-text ์์์ pre-train ๋์์. ๋ ผ๋ฌธ์์๋, ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ๋ฅผ ๋๋ฆผ์ผ๋ก์จ ์ฑ๋ฅ ํฅ์์ด ์์์์๋ ๋ถ๊ตฌํ๊ณ noisy web text๊ฐ vision-language ํ์ต์์ ์ฐจ์ ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์คฌ์.
์ด๊ฒ์ ์ํ์ฌ, ๋ ผ๋ฌธ์์๋ BLIP: ํตํฉ vision-language understanding & generation์ ์ํ Bootstrapping Language-Image Pre-training ์ ์๊ฐํ์๋ค. BLIP์ ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ์ ๊ด์ ์์ 2๊ฐ์ contribution์ ์๊ฐํ์๋ค.
- Multimodal mixture of Encoder-Decoder(MED): ํจ๊ณผ์ ์ธ multi-task pre-training๊ณผ ์ ์ฐํ transfer learning์ ์ํ ์๋ก์ด ๋ชจ๋ธ ์ํคํ ์ฒ. unimodal encoder & image-grounded text encoder & image-grounded text decoder๋ฅผ ๊ตฌ๋ ๊ฐ๋ฅํ๊ฒ ๋ง๋ฆ. ์ด ๋ชจ๋ธ์ 3๊ฐ์ vision-language objective๋ฅผ ์ฌ์ฉํ์ฌ pre-train ๋จ: image-text contrastive learning(ITC), image-text matching(ITM), image-conditioned language modeling.
- Captioning & Filtering(CapFilt): noisy image-text ์์ผ๋ก๋ถํฐ์ ํ์ต์ ์ํ ๋ฐ์ดํฐ์ bootstrapping method. ๋ค์์ ๊ทธ๋ฆผ 1์์ CapFilt์ ์์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ pre-trained MED๋ฅผ ๋ ๊ฐ์ ๋ชจ๋์์ fine-tune ํจ: captioner - ์น ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด ์ข ํฉ ์บก์ ์์ฑ & filter - ๊ธฐ์กด ์น ํ ์คํธ์ ์ข ํฉ ํ ์คํธ ๋๋ก๋ถํฐ noisy ์บก์ ์ ์ ๊ฑฐ.
๋ ผ๋ฌธ์์๋ ๊ด๋ฒ์ํ ์คํ๊ณผ ๋ถ์์ ํตํด ๋ค์์ ํต์ฌ ๋ ผํ์ ๋ง๋ค์ด๋๋ค.
- captioner & filter ๋ชจ๋ ์๋ํ์ ๋ ๋ค์ํ downstream task์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํจ. ๋์ฑ ๋ค์ํ ์บก์ ์ด ๋ ๋ง์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ๋ค ์ค.
- BLIP์ ๊ด๋ฒ์ํ vision-language task์์ SoTA๋ฅผ ๋ฌ์ฑํจ.
2. Method
๋ ผ๋ฌธ์์๋ noisy image-text ์์ผ๋ก๋ถํฐ ํ์ตํ๊ธฐ ์ํ ํตํฉ๋ VLP ํ๋ ์์ํฌ์ธ BLIP์ ์ ์ํ์๋ค.
2-1. Model Architecture
๋ ผ๋ฌธ์์๋ image encoder๋ก ViT๋ฅผ ์ฌ์ฉํ์๋ค. ViT๋ฅผ ์ฌ์ฉํ๋ฉด pre-trained object detector๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค visual feature ์ถ์ถ์ ๋ํด ๊ณ์ฐ์ ์ผ๋ก ๋ ์ฐฉํด์ง๋ค.
understanding & generation ๋ฅ๋ ฅ์ด ์๋ ํตํฉ ๋ชจ๋ธ์ pre-train ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๋ค์์ 3๊ฐ์ง ๊ธฐ๋ฅ ์ค ํ๋์์ ์๋ํ ์ ์๋ multi-task model์ธ multimodal mixture of encoder-decoder(MED)๋ฅผ ์ ์ํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 2์์ ์ด ๊ตฌ์กฐ๋ฅผ ์ข ๋ ์์ธํ๊ฒ ์ ์ ์๋ค.
- Unimodal encoder: ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๊ฐ๋ณ๋ก ์ธ์ฝ๋ฉ ํจ. ํ ์คํธ ์ธ์ฝ๋๋ BERT์ ๋๊ฐ๊ณ , ๋ฌธ์ฅ์ ์์ฝํ๊ธฐ ์ํด [CLS] ํ ํฐ์ด ํ ์คํธ ์ ๋ ฅ ์๋ถ๋ถ์ ์ถ๊ฐ๋จ.
- Image-grounded text encoder: ํ ์คํธ ์ธ์ฝ๋์ ๊ฐ๊ฐ์ transformer ๋ธ๋ก์ ๋ํด self-attention(SA) layer์ feed forward network(FFN) ์ฌ์ด์ ํ๋์ ์ถ๊ฐ์ ์ธ cross-attention(CA) layer๊ฐ ์ถ๊ฐ๋จ์ผ๋ก์จ visual ์ ๋ณด๋ฅผ ์ถ๊ฐํจ. task-specificํ [Encode] ํ ํฐ์ด ํ ์คํธ์ ์ถ๊ฐ๋๊ณ , [Encode]์ ์ถ๋ ฅ ์๋ฒ ๋ฉ์ image-text ์์ multimodal representation์ผ๋ก ์ฌ์ฉ๋จ.
- Image-grounded text decoder: image-grounded text encoder์์ bi-driectional self-attention ๋ ์ด์ด๋ฅผ ์ผ๋ฐ์ ์ธ self-attention ๋ ์ด์ด๋ก ๋์ฒดํจ. [Decode] ํ ํฐ์ ์ํ์ค์ ์์์ ์๋ฆฌ๋๋ก ์ฌ์ฉ๋๊ณ , end-of-sequence ํ ํฐ์ด ๋์ ์๋ฆฌ๋๋ฐ ์ฌ์ฉ๋จ.
2-2. Pre-training Objectives
๋ ผ๋ฌธ์์๋ pre-training ์ค์ 3๊ฐ์ objective๋ฅผ ๊ณต๋์ผ๋ก ์ต์ ํํ์๋ค. ๊ฐ๊ฐ์ image-text ์์ ํ๋์ computational-heavyํ visual transformer๋ฅผ ํตํ ํ๋์ forward pass๋ฅผ ํ์๋ก ํ๊ณ , text transformer๋ฅผ ํตํ 3๊ฐ์ forward pass๋ฅผ ํ์๋ก ํ๋ค. ์ฌ๊ธฐ์ ์๋ก ๋ค๋ฅธ ๊ธฐ๋ฅ๋ค์ ๋ค์์ ์ค๋ช ๋์ด ์๋ 3๊ฐ์ loss๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ํ์ฑํ๋๋ค. ๊ฐ๊ฐ์ loss์ ๋ํ ์์ธํ ์ค๋ช ์ ์๋ตํ๊ณ , ์ด loss๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ป๊ฒ ๋๋ ๊ฒ๋ค์ ์ค์ ์ ๋๊ณ ์ค๋ช ํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 2๋ pre-training ๋ชจ๋ธ ์ํคํ ์ฒ์ objective๋ค์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
- Image-Text Contrastive Loss(ITC): unimodal encoder๋ฅผ ํ์ฑํ ์ํด. vision & language ์ดํด๋ฅผ ํฅ์์ํค๋๋ฐ ๋งค์ฐ ํจ๊ณผ์ ์ธ objective. ALBEF์ ITC loss๋ฅผ ๋ฐ๋ผ์ momentum encoder๋ฅผ ์ฌ์ฉํ์ฌ ITC loss๋ฅผ ๊ณ์ฐํ์์.
- Image-Text matching Loss(ITM): image-grounded text encoder๋ฅผ ํ์ฑํ ์ํด. vision & language ๊ฐ์ fine-grained ์ ๋ ฌ์ ์บก์ฒํ๋ image-text multimodal representation์ ํ์ต. ALBEF์ IMT loss๋ฅผ ๋ฐ๋ผ์ hard negative mining ์ ๋ต์ ์ ์ฉํจ.
- Language Modeling Loss(LM): image-grounded text decoder๋ฅผ ํ์ฑํ ์ํด. ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด ๊ทธ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช ํ ์คํธ๋ฅผ ์์ฑํจ.
๋ ผ๋ฌธ์์๋ multi-task learning์ ํ์ฉํ๋ ๋ฐ๋ฉด์ ํจ์จ์ ์ธ pre-training์ ์ํํ๊ธฐ ์ํด, ํ ์คํธ ์ธ์ฝ๋์ ํ ์คํธ ๋์ฝ๋๋ SA layer๋ฅผ ์ ์ธํ๊ณ ๋ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๋ค. ๊ทธ ์ด์ ๋ ์ธ์ฝ๋ฉ๊ณผ ๋์ฝ๋ฉ task ๊ฐ์ ์ฐจ์ด๊ฐ SA layer์ ์ํด ๊ฐ์ฅ ์ ์บก์ฒ๋๊ธฐ ๋๋ฌธ์ด๋ค. ํนํ, ์ธ์ฝ๋๋ ํ์ฌ ์ ๋ ฅ ํ ํฐ์ ๋ํ representation์ ์ง๊ธฐ ์ํด bi-directional self-attention์ ์ฌ์ฉํ๋ ๋ฐ๋ฉด, ๋์ฝ๋๋ ๋ค์ ํ ํฐ์ ์์ธกํ๊ธฐ ์ํด ์ผ๋ฐ์ ์ธ self-attention์ ์ฌ์ฉํ๋ค. ์ด์๋ ๋ฐ๋๋ก, ์๋ฒ ๋ฉ ๋ ์ด์ด์์๋, CA layer์ FFN ํจ์๊ฐ encoding task์ decoding task์์ ์ ์ฌํ๊ธฐ ๋๋ฌธ์, ์ด ๋ ์ด์ด๋ค์ ๊ณต์ ํ๋ ๊ฒ์ multi-task learning์ผ๋ก๋ถํฐ ์ด์ต์ ์ป์ผ๋ฉด์ ํ์ต ํจ์จ์ฑ์ ํฅ์์ํฌ ์ ์๋ค.
2-3. CapFilt
๋ผ๋ฒจ๋ง ๋น์ฉ์ด ๋งค์ฐ ๋น์ธ๊ธฐ ๋๋ฌธ์, ์ข์ ํ๋ฆฌํฐ์ human-annotated image-text ์ $\left\{ (I_{h}, T_{h}) \right\}$์ ์๋ ๋งค์ฐ ์ ํ๋์ด ์๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์น์์ ์๋์ ์ผ๋ก ์์ง๋ ๋ ๋ง์ ์์ image & alt-text ์ $\left\{ (I_{w}, T_{w}) \right\}$์ ํ์ฉํ๋ค. ํ์ง๋ง, alt-text๋ ์ด๋ฏธ์ง์ visual content๋ฅผ ์ ํํ๊ฒ ๋ฌ์ฌํ์ง ๋ชปํ ๋ฟ๋๋ฌ, noisy signal์ ํฌํจํ๊ณ ์๊ธฐ๋ ํ๋ค.
๋ ผ๋ฌธ์์๋ text corpus์ ํ๋ฆฌํฐ๋ฅผ ํฅ์์ํค๊ธฐ ์ํ ์๋ก์ด method์ธ Captioning Filtering(CapFilt)๋ฅผ ์ ์ํ์๋ค. ๊ทธ๋ฆผ 3์ CapFilt๋ฅผ ๋ฌ์ฌํ๊ณ ์๋ค. CapFilt๋ ๋ค์์ 2๊ฐ์ง ๋ชจ๋์ ์๊ฐํ๋ค. ์ด captioner์ filter๋ ๋๊ฐ์ pre-trained MED model๋ก๋ถํฐ ์ด๊ธฐํ๋๊ณ , COCO dataset์์ ๊ฐ๋ณ์ ์ผ๋ก fine-tune ๋๋ค.
- captioner: ์น ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด ์บก์ ์ ์์ฑ.
- filter: noisy image-text ์์ ์ ๊ฑฐ
captioner๋ image-grounded text decoder์ด๋ค. captioner์ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด ํ ์คํธ๋ฅผ ๋์ฝ๋ฉํ๊ธฐ ์ํ LM objective๋ฅผ ์ฌ์ฉํ์ฌ fine-tune ๋๋ค. ์น ์ด๋ฏธ์ง $I_{w}$๊ฐ ์ฃผ์ด์ง๋ฉด, captioner์ ํ ์ด๋ฏธ์ง ๋น ํ๋์ ์ข ํฉ ์บก์ $T_{s}$๋ฅผ ์์ฑํ๋ค. filter๋ image-grounded text encoder์ด๋ค. filter๋ ํ ์คํธ๊ฐ ์ด๋ฏธ์ง์ ๋ง๋์ง ํ์ตํ๊ธฐ ์ํ objective์ธ ITC์ ITM์ ์ฌ์ฉํ์ฌ fine-tune ๋๋ค. filter๋ ๊ธฐ์กด ์น ํ ์คํธ $T_{w}$์ ์ข ํฉ ํ ์คํธ $T_{s}$ ๋ ๋ชจ๋์์ noisy text๋ฅผ ์ ๊ฑฐํ๋ค. ์ฌ๊ธฐ์ ํ ์คํธ๊ฐ noisy ํ๋ค๊ณ ํ๋จ๋๋ฉด ITM head๋ ์ด๋ฏธ์ง์ ์ผ์นํ์ง ์๋๋ค๊ณ ์์ธกํ๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ธฐ ์ํด ํํฐ๋ง๋ image-text ์์ human-annotated ์๊ณผ ํจ๊ป ์กฐํฉํ์๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ๋ฐ์ดํฐ์ ์ ์๋ก์ด ๋ชจ๋ธ์ pre-train ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
3. Experiments & Discussions
3-1. Effect of CapFilt
ํ 1์์ downstream task์์ CapFilt์ ํจ๋ฅ์ ์ค๋ช ํ๊ธฐ ์ํด ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์ pre-train๋ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์๋ค. ์ฌ๊ธฐ์๋ image-text retrieval๊ณผ fine-tune ๋๊ณ zero-shot ์ธํ ์์์ image captioning์ ํฌํจํ๊ณ ์๋ค. CapFilt์ ํจ๋ฅ์ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- captioner๊ณผ filter๋ฅผ ๋ฐ๋ก ์จ๋ ์ฑ๋ฅ ํฅ์์ ์์ง๋ง, ํจ๊ป ์ฌ์ฉํ๋ฉด ์๋ก๊ฐ ์๋ก๋ฅผ ๋ณด์ํ์ฌ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ด.
- ๋ ํฐ ๋ฐ์ดํฐ์ & ๋ ํฐ vision backbone์ ์ฌ์ฉํ๋ฉด ๋ ํฐ ์ฑ๋ฅ ํฅ์์ด ๊ฐ๋ฅํจ.
3-2. Diversity is Key for Synthetic Captions
CapFilt์์ ์ข ํฉ ์บก์ ์ ์์ฑํ๊ธฐ ์ํด์ nucleus sampling์ ์ฌ์ฉํ์๋ค. nucleus sampling์ ํ๋ฅ ์ ๋์ฝ๋ฉ method๋ก, ๊ฐ ํ ํฐ์ ๋์ ํ๋ฅ ์ง๋์ด ์๊ณ๊ฐ $p$๋ฅผ ์ด๊ณผํ๋ ํ ํฐ ์ธํธ์์ ์ํ๋ง๋๋ค. ํ 2์์๋ nucleus sampling๊ณผ ๊ฒฐ์ ๋ก ์ ๋์ฝ๋ฉ method๋ก ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ์บก์ ์ ์์ฑํ๋ ๋ฐ ๋ชฉํ๋ฅผ ๋ beam search์ ๋น๊ตํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, nucleus sampling์ด ํํฐ๋ก๋ถํฐ ๋์ noise ๋น์จ์ด ๋์์์๋ ๋ถ๊ตฌํ๊ณ ํ์คํ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ์ด์ ๋ํ ์ด์ ๊ฐ nucleus sampling์ด ๋ชจ๋ธ์ด ์ด์ต์ ์ป์ ์ ์๋ ์๋ก์ด ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋์ฑ ๋ค์ํ๊ณ ๋๋ผ์ด ์บก์ ๋ค๋ก ์ด๋ฃจ์ด์ ธ ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๊ฐ์ ํ์๋ค. ์ด์๋ ๋ฐ๋๋ก, beam search๋ ๋ฐ์ดํฐ์ ์ ํํ ์๋ ์์ ํ ์บก์ ์ ์์ฑํ๋ ๊ฒฝํฅ์ด ์๊ณ , ๋ฐ๋ผ์ ๋ ์ ์ ์ธ๋ถ ์ง์์ ์ ๊ณตํ๋ค.
3-3. Parameter Sharing and Decoupling
pre-training ์ค์ ํ ์คํธ ์ธ์ฝ๋์ ๋์ฝ๋๋ self-attention ๋ ์ด์ด๋ฅผ ์ ์ธํ๊ณ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๋ค. ํ 3์์๋ ์๋ก ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ ๊ณต์ ์ ๋ต์ ์ฌ์ฉํ์ฌ pre-train๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ์ฌ๊ธฐ์ pre-training์ ์น ํ ์คํธ์ 14M image๋ฅผ ์ฌ์ฉํ์ฌ ์ํ๋์๋ค. ๊ฒฐ๊ณผ์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, SA layer๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ ์ด์ด๋ฅผ ๊ณต์ ํ๋ ๊ฒ์ ์๋ฌด๊ฒ๋ ๊ณต์ ํ์ง ์๋ ๊ฒ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๊ฐ ์ค๊ฒ ๋๋ฉด ํ์ต์ ํจ์จ์ฑ์ด ๋์์ง๊ฒ ๋๋ค. SA layer๊ฐ ๊ณต์ ๋๋ฉด, ๋ชจ๋ธ์ ์ฑ๋ฅ์ encoding task์ decoding task ๊ฐ์ ์ถฉ๋๋ก ์ธํด ์ฑ๋ฅ์ด ๋ค์ด๊ทธ๋ ์ด๋๋๋ค.
CapFilt ์ค์, captioner์ filter๋ end-to-end๋ก ๋ชจ๋ COCO์์ ๊ฐ๋ณ์ ์ผ๋ก fine-tune ๋๋ค. ํ 4์์๋ captioner์ filter๊ฐ pre-training์์ ์ฒ๋ผ ๋๊ฐ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๋ฉด ์ด๋ค ํจ๊ณผ๊ฐ ๋ํ๋๋์ง ์ฐ๊ตฌํ์๋ค. downstream task์์ ์ฑ๋ฅ์ ๊ฐ์ํ๋๋ฐ, ์ด๋ ์ฃผ๋ก ํ์ฆ ํธํฅ์ ๊ธฐ์ฌํ๋ค. ํ๋ผ๋ฏธํฐ ๊ณต์ ๋๋ฌธ์, captioner์ ์ํด ์์ฑ๋๋ noisy ์บก์ ์ ๋ฎ์ noisy ratio๋ก ํ์๋ ๊ฒ์ฒ๋ผ filter์ ์ํด ๊ฑธ๋ฌ์ง ๊ฐ๋ฅ์ฑ์ด ์ ๋ค. (25%์ ๋นํด 8%๋ก ์ ์)
4. Comparison with State-of-the-arts
์ด ์น์ ์์๋ BLIP์ ๊ธฐ์กด์ VLP method๋ค๊ณผ ์ฌ๋ฌ ๊ฐ์ง downstream task์์ ๋น๊ตํ์๋ค. ๋ณธ ํฌ์คํธ์์๋ ์์ธํ๊ฒ ๋ค๋ฃจ์ง ์๊ณ ๊ฐ๊ฐ์ task์์ BLIP์ด ์ด๋ ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง ์ ๋๋ง ๋ค๋ค๋ณด๋๋ก ํ๊ฒ ๋ค.
Image-Text Retrieval
๊ธฐ์กด์ model๋ค์ ๋นํด์ BLIP์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ์ฌ๊ธฐ์ ๋ ํน๋ณํ ์ ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ 14M์ pre-train image๋ฅผ ์ฌ์ฉํ์ ๋์๋ ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค๋ ์ ์ด๋ค.
Image Captioning
BLIP์ heavy-detector & ๊ณ ํด์๋ ์ด๋ฏธ์ง์ pre-train ๋ LEMON์ ๋นํด detector-free & ์ ํด์๋ ์ด๋ฏธ์ง & ↓ ์ถ๋ก ์๊ฐ์ ๊ฐ์ง๊ณ ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์.
Visual Question Answering(VQA) & Natural Language Visual Reasoning(NLVR2)
๋ ผ๋ฌธ์์๋ VQA์ NLVR task๋ฅผ ์ํํ๊ธฐ ์ํด ๋ชจ๋ธ์ ์ํคํ ์ฒ์ ๋ณํ์ ๊ฐํ์๋๋ฐ ๊ทธ ๋ณํ์ ๋ํด ์ดํด๋ณด๊ฒ ๋ค.
๋ ผ๋ฌธ์์๋ VQA๋ฅผ 2๊ฐ์ ๋๋ต ์ค์์ ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๋ถ๋ฅ task๋ก ์๊ฐํ ๊ฒ์ด ์๋๋ผ ํ๋์ ๋ต๋ณ์ ์์ฑํด ๋ด๋ ์์ฑ task๋ก ์๊ฐํ์๋ค. ์ด๋ open-ended VQA๋ฅผ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์ด์ค๋ค. ๊ทธ๋ฆผ 5์ a์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, fine-tuning ์ค์๋ pre-trained model์ ์ฌ์กฐ์ ํด์, image-question์ด ๋จผ์ multimodal embedding์ผ๋ก ๋จผ์ ์ธ์ฝ๋ฉ ๋๊ณ , ๊ทธ๋ค์์ ๊ทธ ๊ฐ์ด answer decoder์ ์ฃผ์ด์ง๋ค. VQA model์ ground-truth answer์ ํ๊น์ผ๋ก ์ฌ์ฉํด์ LM loss์ ํจ๊ป fine-tune ๋๋ค.
๋ ผ๋ฌธ์์๋ NLVR2 task๋ฅผ ์งํํ ๋ pre-trained model์ ๊ฐ๋จํ ์กฐ์ ์ ๊ฐํ๋๋ฐ, ์ด๊ฒ์ด ์ด์ ๋ชจ๋ธ๋ณด๋ค ๋์ฑ ๊ณ์ฐ ํจ์จ์ ์ธ ์ํคํ ์ฒ๋ฅผ ๋ง๋ค์ด ์คฌ๋ค. ๊ทธ๋ฆผ 5์ b์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, image-grounded text encoder์์ ๊ฐ transformer ๋ธ๋ก์ ๋ํด, ์ฌ๊ธฐ์๋ ๋ ๊ฐ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋ ๊ฐ์ cross-attention layer๊ฐ ์กด์ฌํ๊ณ , ์ด๋ค์ ์ถ๋ ฅ์ ํฉ์ณ์ ธ์ FFN์ ๋ค์ด๊ฐ๊ฒ ๋๋ค. ๋ ๊ฐ์ CA layer๋ ๋๊ฐ์ pre-trained ๊ฐ์ค์น๋ก๋ถํฐ ์ด๊ธฐํ๋๋ค. merge layer๋ ์ธ์ฝ๋์ ์ฒซ 6 ๋ ์ด์ด์์ ๊ฐ๋จํ ํ๊ท ํ๋ง์ ์ํํ๊ณ , ๋ค๋ฐ๋ผ์ 6-12 ๋ ์ด์ด์์ linear projection์ ํจ์ผ๋ก์จ ์กฐํฉ๋๋ค. MLP ๋ถ๋ฅ๊ธฐ๋ [Encode] ํ ํฐ์ ์ถ๋ ฅ ์๋ฒ ๋ฉ์ ์ ์ฉ๋๋ค.
Visual Dialog(VisDial)
๊ทธ๋ฆผ 5์ c์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ ์บก์ ์๋ฒ ๋ฉ์ ์กฐํฉํ์๊ณ , cross-attention์ ํตํด dialog encoder์ ๋ค์ด๊ฐ๊ฒ ๋๋ค. dialog encoder๋ ์ ์ฒด dialog history์ image-caption ์๋ฒ ๋ฉ์ด ์ฃผ์ด์ง๋ฉด ์ง๋ฌธ์ ๋ํ ๋๋ต์ด true์ธ์ง false์ธ์ง ๊ตฌ๋ณํ๊ธฐ ์ํด ํ์ต๋๋ค.
5. Ablation Study
์ด ์น์ ์์๋ CapFilt์ ๋ํด์ ablation study๋ฅผ ์งํํ์๋ค.
- CapFilt์ ์ฑ๋ฅ ํฅ์์ ๋์ฑ ๊ธด ํ์ต ๋๋ฌธ์ด ์๋: ํ 9๋ฅผ ๋ณด๋ฉด noisy web data๋ฅผ ์ฌ์ฉํ ๋์ฑ ๊ธด ํ์ต์ ์ฑ๋ฅ์ ํฅ์์ํค์ง ์๋๋ค.
- ์๋ก์ด ๋ชจ๋ธ๋ค์ bootstrapped ๋ฐ์ดํฐ์ ์์ ํ์ต๋์ด์ผ ํจ: ํ 10์ ๋ณด๋ฉด contunie training์ ๋์์ด ๋์ง ์์.
์ถ์ฒ
https://arxiv.org/abs/2201.12086