์์ฆ ๋ค์ด์๋ ํ ๊ฐ์ง ๊ธฐ์ ๋ก๋ ์ฑ๊ณตํ ์ ์๋ ์๋๋ผ๊ณ ํ๋ค. ํ ๋ง๋๋ก '์ตํฉ'์ด ํ์๊ฐ ์๋ ํ์๊ฐ ๋์ด๊ฐ๊ณ ์๋ ์ธ์์ด๋ค. ์ด๋ฒ์ OpenAI์์ ๊ณต๊ฐํ GPT-4๋ ์ด์ ์ GPT ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ ์ฒ๋ฆฌํ ์ ์๋ multimodal ์ฑ์ ๋ณด์ฌ์คฌ๋ค. ์ค๋ก ์์ฒญ๋ ๋ฐ์ ์ด๋ผ๊ณ ํ ์ ์๋๋ฐ, ์ด๋ฒ ํฌ์คํธ์์๋ multimodal model์ ํ ์ข ๋ฅ์ธ Vision-Language Model$($VLM$)$์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ๋ค! ์ด ํฌ์คํธ๋ HuggingFace์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค.
HuggingFace Blog: https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-in-%F0%9F%A4%97-transformers
Table of Contents
1. Introduction
2. Learning Strategies
2-1. Contrastive Learnings
2-2. PrefixLM
2-3. Multi-modal Fusing with Cross Attention
2-4. MLM / ITM
2-5. No Training
Introduction
๋ชจ๋ธ์ 'vision-language' model์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๋ฐ์๋ ๋ฌด์จ ์๋ฏธ๊ฐ ์์๊น? ์ด ๋ชจ๋ธ์ ์๊ฐ์ ๋ฐ ์ธ์ด์ ํน์ฑ์ ํฉ์น ๊ฒ์ผ๊น? ์๋ฆฌ์กํ๋ฐ ๊ทธ๋ ๋ค๋ฉด ์ด ๋ชจ๋ธ์ ์ ํํ ์ ์๋ ์ด๋ป๊ฒ ๋ ๊น?
์ด ๋ชจ๋ธ์ ์ ์ํ๋๋ฐ ๋์๋๋ ํ ๊ฐ์ง ํน์ฑ์ ์ด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง$($vision$)$์ ์์ฐ์ด ํ ์คํธ$($language$)$๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๋ค๋ ๊ฒ์ด๋ค. ์ด ํ๋ก์ธ์ค๋ ๋ชจ๋ธ์ด ์ํํ๋๋ก ์์ฒญ๋ฐ์ ์ ๋ ฅ, ์ถ๋ ฅ, task์ ๋ฐ๋ผ์ ๋ฌ๋ผ์ง๋ค.
์๋ฅผ ๋ค์ด zero-shot ์ด๋ฏธ์ง ๋ถ๋ฅ task๊ฐ ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์ด๋ฏธ์ง์ ๋ช ๊ฐ์ prompt๋ฅผ ๊ฐ์ด ๋ชจ๋ธ์ ๋ณด๋ด๋ฉด, ๋ชจ๋ธ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ prompt๋ฅผ ์ถ๋ ฅํ๊ฒ ๋๋ค.
์ด๋ ๊ฒ ์์ธก์ ํ๊ธฐ ์ํด์, ๋ชจ๋ธ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํ ์คํธ prompt๋ฅผ ๋ชจ๋ ์ดํดํ๊ณ ์์ ํ์๊ฐ ์๋ค. ๋ชจ๋ธ์ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์ดํด๋ฅผ ์ป๊ธฐ ์ํด encoder์ ๋ถ๋ฆฌํ๊ฑฐ๋ ์ตํฉํ๋ ๋ฑ์ ๊ณผ์ ์ ๊ฑฐ์น๋ค. ํ์ง๋ง ์ด๋ฌํ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ๋ค์ ์ฌ๋ฌ๊ฐ์ง ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ ์ ์๋ค. ์๋๋ ๊ทธ์ ๋ํ ๋ช ๊ฐ์ง ์์์ด๋ค.
- ์์ฐ์ด๋ก๋ถํฐ ์ด๋ฏธ์ง retrieval
- Phrase grounding: ์ ๋ ฅ ์ด๋ฏธ์ง์ ์์ฐ์ด ๊ตฌ๋ฌธ์ผ๋ก๋ถํฐ object detection์ ์ํ $($์: ์ด๋ฆฐ ์์ด๊ฐ ๋ฐฉ๋ง์ด๋ฅผ ํ๋๋ฅด๋ค.$)$
- VIsual QA: ์์ฐ์ด์์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ง๋ฌธ์ผ๋ก๋ถํฐ ์ ๋ต ์ฐพ๊ธฐ
- ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ๋ํด ์๋ง ์์ฑ: ์ด task ๋ํ ํ ์คํธ ์์ฑ์ผ๋ก ๋ฐ์๋ค์ฌ์ง๊ธฐ๋ ํ์ง๋ง, ์ฌ๊ธฐ์๋ ์์ฐ์ด prompt์ ์ด๋ฏธ์ง๋ก ์์๋๋ค.
- ์ด๋ฏธ์ง์ ํ ์คํธ ํน์ฑ์ ๋ชจ๋ ๊ฐ์ง๋ ์์ ๋ฏธ๋์ด ์ฝํ ์ธ ์์ ํ์ค ๋ฐ์ธ ๊ฐ์ง
Learning Strategies
vision-language model์ ๋ณดํต 3๊ฐ์ ์ค์ํ ์์๋ก ์ด๋ฃจ์ด์ ธ ์๋ค: image encoder, text encoder, ๋ ๊ฐ์ encoder๋ก๋ถํฐ ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ์ตํฉํ ์ง์ ์ ๋ต. ์ด๋ฌํ ํต์ฌ ์์๋ ์์ค ํจ์๊ฐ ๋ชจ๋ธ ์ํคํ ์ฒ์ ํ์ต ์ ๋ต์ ์ค์ฌ์ผ๋ก ์ค๊ณ๋๊ธฐ ๋๋ฌธ์ ์๋ก ๋ฐ์ ํ๊ฒ ๊ฒฐํฉ๋์ด ์๋ค. vision-language model๋ ๊ฑฐ์ ์๋ก์ด ์ฐ๊ตฌ ๋ถ์ผ์ด์ง๋ง, ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ๊ตฌ์กฐ๋ ๋ช ๋ ์ฌ์ด์ ์์ฒญ๋๊ฒ ๋ง์ด ๋ณํํ์๋ค. ์ด์ ์ ์ฐ๊ตฌ๋ค์ ์์ ์ ์ํ ์ด๋ฏธ์ง ์ค๋ช ๊ณผ pre-trained ์๋ ๋ฒกํฐ ๋๋ ๋น๋ ๊ธฐ๋ฐ์ TF-IDF๋ฅผ ์ฌ์ฉํ์์ง๋ง, ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์ด๋ฏธ์ง์ ํ ์คํธ ํน์ง์ ๋ถ๋ฆฌํด์ ๋๋ ๊ฒฐํฉํด์ ํ์ตํ๊ธฐ ์ํด ์ด๋ฏธ์ง์ ํ ์คํธ์ ๋ํด transformer architecture๋ฅผ ์ ์ฉํ์๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ๋ค์ํ downstream task๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ ๋ต์ pre-training ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ pre-train ๋์๋ค.
์ด๋ฒ ์น์ ์์๋ vision-language model์ ์ํ ์ ํ์ ์ธ pre-training ๋ชฉํ์ ์ ๋ต๋ค์ ๋ํด์ ์์๋ณผ ๊ฒ์ด๋ค. ์ด๊ฒ๋ค์ ์์๋ณด๊ธฐ ์ ์ pre-training ๋ชฉํ๋ค์ ๋ํด ๊ฐ๋ตํ๊ฒ ์ดํด๋ณด์๋ค.
- Contrastive Learning: ๋์กฐ์ ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๊ณต๋ feature space์ ์ ๋ ฌ
- PrefixLM: ์ด๋ฏธ์ง๋ฅผ LM์ ์ ๋์ฌ๋ก ์ฌ์ฉํจ์ผ๋ก์จ ์ด๋ฏธ์ง์ ํ ์คํธ ์๋ฒ ๋ฉ์ ๊ณต๋์ผ๋ก ํ์ต
- Multi-modal Fusing with Cross Attention: cross-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํด์ LM์ ๋ ์ด์ด์ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ตํฉ
- MLM / ITM: masked-language modeling ๋ฐ image-text matching ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ์ผ๋ถ๋ฅผ ํ ์คํธ์ ์ ๋ ฌ
- No Training: ๋ฐ๋ณต์ ์ธ ์ต์ ํ๋ฅผ ํตํด ๋ ๋ฆฝ์ ์ธ vision & lanugage model์ ์ฌ์ฉ
1. Constrastive Learning
Contrastive learning์ vision model์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ pre-training ๋ชฉํ์ด๋ฉฐ vision-language model์๋ ๋งค์ฐ ํจ๊ณผ์ ์ธ pre-training ๋ชฉํ์ธ ๊ฒ์ผ๋ก ์ ์ฆ๋์๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ contrastive loss๋ฅผ ์ฌ์ฉํ์ฌ {image, caption}๋ก ๊ตฌ์ฑ๋์ด ์๋ ๊ฑฐ๋ํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ ํ ์คํธ ์ธ์ฝ๋์ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ๊ณต๋์ผ๋ก ํ์ตํจ์ผ๋ก์จ ์๊ฐ์ ๋ฐ ์ธ์ด์ ํน์ฑ์ ์ฐ๊ฒฐ์ง์๋ค. contrastive learning์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์ผํ feature space์ ๋งคํํ์ฌ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์๋ฒ ๋ฉ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ์ผ์นํ๋ ๊ฒฝ์ฐ ์ต์ํํ๊ฑฐ๋ ์ผ์นํ์ง ์๋ ๊ฒฝ์ฐ ์ต๋ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
CLIP์ ๋ํด์ ๊ฑฐ๋ฆฌ๋ ํ ์คํธ์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ์ด๋ค. ALIGN๊ณผ DeCLIP ๊ฐ์ ๋ชจ๋ธ์ ์ก์์ด ์๋ ๋ฐ์ดํฐ์ ์ ์ค๋ช ํ๊ธฐ ์ํด ์ด ๋ชจ๋ธ๋ค๋ง์ ๊ฑฐ๋ฆฌ ๋ฉํธ๋ฆญ์ ๋์์ธํ์๋ค.
LiT ๊ฐ์ ๊ฒฝ์ฐ์๋ image encoder๋ ๋๊ฒฐ์ํค๊ณ CLIP์ pre-training ๋ชฉํ๋ฅผ ์ฌ์ฉํด์ text encoder์ fine-tuning ํ๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ์๊ฐํ์๋ค. ์ ์๋ค์ ์ด ์์ด๋์ด๋ฅผ image encoder์์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ๋ ์ ์ฝ๋๋ก text encoder๋ฅผ ๊ฐ๋ฅด์น๋ ๋ฐฉ๋ฒ์ผ๋ก ํด์ํ์๋ค. ์ด ๋ฐฉ์์ CLIP๋ณด๋ค ๋์ฑ ํจ๊ณผ์ ์ด๊ณ ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. FLAVA ๊ฐ์ ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์ vision๊ณผ language embedding์ ๋์ฑ ์ ์ ๋ ฌํ๊ธฐ ์ํด contrastive learning๊ณผ ๋ค๋ฅธ pre-training ์ ๋ต์ ์กฐํฉ์ ์ฌ์ฉํ์๋ค.
2. PrefixLM
vision-language model์ ํ์ต์ํค๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ PrefixLM์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. SimVLM๊ณผ VirTex ๊ฐ์ ๋ชจ๋ธ์ ์ด pre-train ๋ชฉํ๋ฅผ ์ฌ์ฉํ๋ฉฐ auto-regressive language model๊ณผ ์ ์ฌํ transformer encoder ๋ฐ transformer decoder๋ก ๊ตฌ์ฑ๋ ํตํฉ multimodal ์ํคํ ์ฒ๋ฅผ ํน์ง์ผ๋ก ํ๋ค.
์ด๋ฅผ ๋์ฑ ์์ธํ๊ฒ ์์๋ณด๋๋ก ํ์. prefix ๋ชฉํ๋ฅผ ์ฌ์ฉํ๋ LM์ prefix์ฒ๋ผ ์ ๋ ฅ ํ ์คํธ๊ฐ ์ฃผ์ด์ง๋ฉด ๋ค์ ํ ํฐ์ ์์ธกํ๋ค. ์๋ฅผ ๋ค์ด "๋จ์๊ฐ ์ฝ๋์ ์์๋ค." ๋ผ๋ sequence๊ฐ ์ฃผ์ด์ง๋ฉด, "๋จ์๊ฐ ์ฝ๋์" ๋ผ๋ prefix๋ก ์ฌ์ฉํ ์ ์๊ณ ๋ค์ ํ ํฐ์ธ "์์๋ค" ๋๋ ๋ค๋ฅธ ๊ทธ๋ด๋ฏํ ํ ํฐ์ ์์ธกํจ์ผ๋ก์จ ํ์ตํ ์ ์๋ค.
Visual Transformer$($ViT$)$๋ ์ด prefix์ ๊ฐ๋ ์ ์ด๋ฏธ์ง๋ฅผ ๊ฐ๊ฐ์ ์ด๋ฏธ์ง ํจ์น๋ก ๋๋์ด์ ์ด ํจ์น๋ค์ ์์ฐจ์ ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ค์ผ๋ก์จ ์ด๋ฏธ์ง์ ๋๊ฐ์ด ์ ์ฉํ์๋ค. ์ด ์์ด๋์ด๋ฅผ ํ์ฉํ์ฌ SimVLM์ ์ธ์ฝ๋๊ฐ ์ฐ๊ฒฐ๋ ์ด๋ฏธ์ง ํจ์น ์ํ์ค์ prefix ํ ์คํธ ์ํ์ค๋ฅผ prefix ์ ๋ ฅ์ผ๋ก ๋ฐ์๋ค์ด๊ณ ๋์ฝ๋๊ฐ ํ ์คํธ ์ํ์ค์ ์ฐ์์ ์์ธกํ๋ ์ํคํ ์ฒ๋ฅผ ํน์ง์ผ๋ก ํฉ๋๋ค. ์์ ๊ทธ๋ฆผ์ ์ด ์์ด๋์ด๋ฅผ ๋ฌ์ฌํ๊ณ ์๋ค. SimVLM ๋ชจ๋ธ์ ์ฒ์์ prefix์ ๋ํ๋์์ง ์์ ์ด๋ฏธ์ง ํจ์น๋ค์ ์ฌ์ฉํ์ง ์๊ณ ํ ์คํธ ๋ฐ์ดํฐ์ ์์ pre-train ๋ ๋ค์์ ์ ๋ ฌ๋ image-text ๋ฐ์ดํฐ์ ์์ ํ์ต๋๋ค.
image-guided task๋ฅผ ์ํด ์๊ฐ์ ์ ๋ณด๋ฅผ LM๋ก ์ตํฉํ๊ธฐ ์ํด ํตํฉ multi-modal architecture๋ฅผ ํ์ฉํ ๋ชจ๋ธ์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, ์ค์ง prefixLM ์ ๋ต๋ง์ ์ฌ์ฉํ ๋ชจ๋ธ์ image captioning ๋๋ Visual QA ๊ฐ์ downstream task์ ๊ตญํ๋๋ ์์ฉ์ ๋ณด์ฌ์คฌ๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋ ๊ทธ๋ฃน์ ๋ํ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋ฉด ์ฐ๋ฆฌ๋ ์ด๋ฏธ์ง์ ์ค๋ช ์ ์์ฑํ๊ธฐ ์ํด ์ด๋ฏธ์ง์ ๋ํด ์ง๋ฌธํ๊ฑฐ๋ ์๊ฐ์ ์ถ๋ฆฌ๋ฅผ ํ์๋ก ํ๋ ์ง๋ฌธ์ ๋์ง ์ ์๋ค. ๋ฐ๋ฉด์ multi-modal representation์ ํ์ตํ๊ฑฐ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ ๋ฐฉ์์ ์ฑํํ๋ ๋ชจ๋ธ์ object detection ๋ฐ image segmentation๊ณผ ๊ฐ์ ๋ค์ํ ๊ธฐํ downstream task์ ๋ง๊ฒ ์กฐ์ ํ ์ ์๋ค.
Frozen PrefixLM
์๊ฐ์ ์ ๋ณด๋ฅผ LM์ ์ตํฉํ๋ ๊ฒ์ ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ฐ๋ฉด, pre-trained LM์ fine-tuning ํ์ ์์ด ์ฌ์ฉํ๋ ๊ฒ์ ๋์ฑ ํจ์จ์ ์ด๋ค. ๊ทธ๋์ vision-language model์์ ๋ค๋ฅธ pre-training ๋ชฉํ๋ค์ frozen language model์ ์ฌ์ฉํด์ ์ ๋ ฌ๋ image embedding์ ํ์ตํ๋ค.
Frozen, MAPL, ClipCap ๊ฐ์ ๋ชจ๋ธ๋ค์ ์ด Frozen prefixLM์ pre-training ๋ชฉํ๋ก ์ฌ์ฉํ๋ค. ์์์ ์ค๋ช ํ PrefixLM ๋ชฉํ์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ptr-train๋ Frozen LM์ ์ ๋์ฌ๋ก ์ฌ์ฉํ ์ ์๋ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ์์ฑํ๊ธฐ ์ํด ํ์ต ์ค์ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๋งค๊ฐ๋ณ์๋ง ์ ๋ฐ์ดํธํ๋ค. Frozen๊ณผ ClipCap์ ๋ ๋ค ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ prefix text๊ฐ ์ฃผ์ด์ง๋ฉด, ์บก์ ์์ ๋ค์ ํ ํฐ์ ์์ฑํ๋ ๋ชฉํ๋ฅผ ์ฌ์ฉํด์ ์ ๋ ฌ๋ image-text ๋ฐ์ดํฐ์ ์์ ํ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, Flamingo๋ pre-trained vision encoder์ language model์ frozen ์ํ๋ก ๋ณด์กดํ๊ณ ๊ด๋ฒ์ํ vision & language task์์ few-shot learning์ผ๋ก ์๋ก์ด SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. Flamingo๋ pre-trained frozen vision model ์์ Perceiver Resampler ๋ชจ๋์ ์ถ๊ฐํ๊ณ ๊ธฐ์กด์ pre-trained LM ๋ ์ด์ด์ Frozen LM ๋ ์ด์ด ์ฌ์ด์ ์๋ก์ด cross-attention ๋ ์ด์ด๋ฅผ ์ฝ์ ํ์ฌ ์๊ฐ์ ๋ฐ์ดํฐ์ ๋ํ LM์ ์กฐ์ ํจ์ผ๋ก์จ ์ด๋ฅผ ๋ฌ์ฑํ์๋ค.
Frozen PreficLM pre-training ๋ชฉํ์ ์ค์ฉ์ ์ธ ์ฅ์ ์ ์ ํ๋ ์ ๋ ฌ image-text ๋ฐ์ดํฐ์์ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ์ ๋ ฌ๋ multi-model ๋ฐ์ดํฐ์ ์ ๊ตฌํ๊ธฐ ์ด๋ ค์ด ๋ถ์ผ์ ์ ์ฉํ ๋ ์ด๋ ค์์ ๋์ด์ค๋ค.
3. Multi-modal Fusing with Cross Attention
pre-trained LM์ multi-modal task์ ํ์ฉํ๊ธฐ ์ํ ๋๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง๋ฅผ LM์ ์ถ๊ฐ์ prefix๋ก ์ฌ์ฉํ๋ ๋์ ์ cross-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ LM์ decoder์ ๋ ์ด์ด์ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ฐ๋ก ์ตํฉํ๋ ๊ฒ์ด๋ค. VisualGPT, VC-GPT, Flamingo ๊ฐ์ ๋ชจ๋ธ๋ค์ ์ด pre-training ์ ๋ต์ ์ฌ์ฉํ๊ณ image captioning๊ณผ visual QA task์์ ํ์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฃผ๋ ๋ชฉํ๋ ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ๊ณผ ์๊ฐ์ ์ ๋ณด์ ์กฐํฉ์ ํจ์จ์ ์ผ๋ก ๋ฐธ๋ฐ์ค๋ฅผ ๋ง์ถ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฑฐ๋ํ multi-modal ๋ฐ์ดํฐ์ ์ด ์์ ๋ ๋์ฑ ์ค์ํ๋ค.
VisualGPT ๊ฐ์ ๋ชจ๋ธ๋ค์ ์ด๋ฏธ์ง๋ฅผ ์๋ฒ ๋ฉํ๊ณ ๊ทธ๋ด๋ฏํ ์บก์ ์ ์์ฑํ๊ธฐ ์ํด ์ด visual embedding์ pre-trained language decoder ๋ชจ๋์ cross-attention layer์ ์ฃผ๊ธฐ ์ํด visual encoder์ ์ฌ์ฉํ์๋ค. FIBER ๊ฐ์ ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์์๋ ๋์ฑ ํจ์จ์ ์ธ multi-modal ์ตํฉ๊ณผ ๋ค์ํ downstream task๋ฅผ ๊ฐ๋ฅ์ผ ํ๊ธฐ ์ํด gate ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ cross-attention ๋ ์ด์ด๋ฅผ vision๊ณผ language backbone์ ์ฝ์ ํ์๋ค.
4. Masked-Language Modling / Image-Text Matching
๋๋ค๋ฅธ vision-language model์ ์ด๋ฏธ์ง์ ์ธ๋ถ์ ์ธ ๋ถ๋ถ์ ํ ์คํธ๋ฅผ ์ฌ์ฉํด์ ์ ๋ ฌํ๊ณ ๋ค์ํ downstream task๋ฅผ ๊ฐ๋ฅ์ผ ํ๊ธฐ ์ํด์ MLM๊ณผ ITM์ ์กฐํฉ์ ์ฌ์ฉํ์๋ค. ์ด๋ฌํ ์ ์ ์ ์ฌ์ฉํ๋ ๋ชจ๋ธ๋ค์๋ VisualBERT, FLAVA, ViLBERT, LXMERT, BridgeTower ๋ฑ์ด ์๋ค.
MLM๊ณผ ITM์ด ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋์ง ์์ธํ ์์๋ณด๋๋ก ํ์. ๋ถ๋ถ์ ์ผ๋ก ๋ง์คํน๋ ์บก์ ์ด ์ฃผ์ด์ง๋ฉด, MLM์ ํด๋น๋๋ ์ด๋ฏธ์ง์ ๊ธฐ๋ฐํด์ masked word๋ฅผ ์์ธกํ๋ค. MLM์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ฌ์ฉํ ํ๋ถํ ์์ ์ฃผ์์ด ๋ฌ๋ฆฐ multi-modal ๋ฐ์ดํฐ์ ๊ณผ ์ ๋ ฅ ํ ์คํธ์ ๋ถ๋ถ์ ๋ํ ๊ฐ์ฒด ์ง์ญ ์ ์์ ์์ฑํ๊ธฐ ์ํ object detection ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ ํ๋ค.
ITM์ ์ด๋ฏธ์ง์ ์บก์ ์ง์ด ์ฃผ์ด์ง๋ฉด ์บก์ ์ด ์ด๋ฏธ์ง์ ์๋ง๋์ง ์๋์ง๋ฅผ ์์ธกํ๋ task์ด๋ค. negative sample๋ค์ด ๋ณดํต ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ๋๋คํ๊ฒ ์ํ๋ง๋๋ค. MLM๊ณผ ITM์ multi-modal ๋ชจ๋ธ์ pre-training ๋์ค์ ์ข ์ข ํฉ์ณ์ง๋ค. ์๋ฅผ ๋ค์ด, VisualBERT๋ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๊ธฐ ์ํด pre-trained object detection ๋ชจ๋ธ์ ์ฌ์ฉํ๋ BERT์ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค. ์ด ๋ชจ๋ธ์ pre-training ๋์ MLM ๋ฐ ITM์ ์กฐํฉ์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ํ ์คํธ์ ์์์ ๊ด๋ จ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์์ญ์ self-attention๊ณผ ์์์ ์ผ๋ก ์ ๋ ฌํ๋ค.
FLAVA์ ๊ฐ์ ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์ ์ด๋ฏธ์ง์ ํ ์คํธ representation์ ์ตํฉํ๊ณ ์ ๋ ฌํด์ multi-modal ์ถ๋ฆฌ๋ฅผ ํ๊ธฐ ์ํด image encoder, text encoder, multi-modal encoder๋ก ๊ตฌ์ฑ๋์๋ค. ์ด ๋ชจ๋ ๊ฒ๋ค์ Transformer์ ๊ธฐ๋ฐ์ ๋๊ณ ์๋ค. ์ด๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด, FLAVA๋ MLM, ITM, Masked-Image Modeling$($MIM$)$, contrastive learning ๊ฐ์ ๋ค์ํ ์ข ๋ฅ์ pre-training ๋ชฉํ๋ฅผ ์ฌ์ฉํ์๋ค.
5. No Training
๋ง์ง๋ง์ผ๋ก ๋ค์ํ ์ต์ ํ ์ ๋ ฅ๋ค์ pre-trained image & text ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์ด๋ฏธ์ง์ ํ ์คํธ representation์ ์ฐ๊ฒฐ ์ง๋ ๊ฒ์ ๋ชฉํ๋ฅผ ๋๊ฑฐ๋ ์ถ๊ฐ์ ์ธ ํ์ต ์์ด ์๋ก์ด downstream task์ ๋ํด pre-trained multi-modal ๋ชจ๋ธ์ ์ ์ฉ์ํค๋ ค ํ๊ณ ์๋ค.
์๋ฅผ ๋ค์ด MaGiC์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํ ์บก์ ์ ์์ฑํ๊ธฐ ์ํด pre-trained autoregressive LM์ ํตํ์ฌ ๋ฐ๋ณต์ ์ต์ ํ๋ฅผ ํ๋ ๊ฒ์ ์ ์ํ์๋ค. ์ด๋ฅผ ํ๊ธฐ ์ํด MaGiC์ ์์ฑ๋ ํ ํฐ๊ณผ ์ ๋ ฅ ์ด๋ฏธ์ง์ CLIP embedding์ ์ฌ์ฉํด์ CLIP ๊ธฐ๋ฐ์ 'Magic score'๋ฅผ ๊ณ์ฐํ์๋ค.
ASIF๋ ์ถ๊ฐ์ ์ธ ํ์ต ์์ด pre-trained uni-modal ์ด๋ฏธ์ง์ ํ ์คํธ ๋ชจ๋ธ์ ๋ ์ ์ ์์ multi-modal ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ ์ด๋ฏธ์ง ์บก์ ๋์ ํ๊ธฐ ์ํ multi-modal๋ก ๋ณํํ๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค. ASIF๊ฐ ๊ฐ๊ณ ์๋ ์ค์ํ ์ ์ ๋น์ทํ ์ด๋ฏธ์ง์ ์บก์ ์ ๊ฐ๊ฐ์ ๋ค๋ฅธ ๊ฒ๋ค๊ณผ ๋น์ทํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ์ฐ๋ฆฌ๋ ground-truth multi-modal ์ง์ ์์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ ์๋์ representation ๊ณต๊ฐ์ ๋ง๋ฆ์ผ๋ก์จ ์ ์ฌ๋ ๊ธฐ๋ฐ์ ๊ฒ์์ ์ํํ ์ ์๋ค.
p.s.
ํ ๋ฒ ์ ๋ฆฌํด๋ณด๊ธฐ๋ ํ์์ผ๋ ์์ง ์ดํด๊ฐ ๋ถ์กฑํ ๊ฒ ๊ฐ์์ ์ถํ์ ์ด multi-modal model์ ๊ด๋ จ๋ ๋ด์ฉ๋ค์ ๋ ์์ฑํด๋ณด๋ ค๊ณ ํ๋ค. ๋ถ์กฑํ ๋ด์ฉ์ด์ง๋ง ๋๊น์ง ๋ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ๐๐
์ถ์ฒ