The overview of this paper
visual & vision-language representation์ ์ ๋ฌธ์ ์ธ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฌํ๊ฒ ์์กดํ๊ณ ์๋ค. vision ์์ฉ์ ์ํด์, representation์ ImageNet ๋๋ OpenImages์ ๊ฐ์ ๋ถ๋ช ํ ํด๋์ค ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ต๋์๋ค. ๊ทธ๋์ ๊ธฐ์กด์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ ๋ง์ ๋น์ฉ์ด ๋ค๊ธฐ ๋๋ฌธ์, ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์ ํ๋๊ณ , ํ์ต ๋ชจ๋ธ์ scaling์ ๋ฐฉํดํ๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ฝ 10์ต ๊ฐ์ ์ก์์ด ์์ฌ ์๋ image alt-text ๋ฐ์ดํฐ์ ์ Conceptual Captions ๋ฐ์ดํฐ์ ์์ ์ฌ์ฉ๋๋ ๋น์ฉ์ด ๋น์ผ filtering ๋๋ ํ์ฒ๋ฆฌ ์์ ์ ์ฌ์ฉํ์ง ์๊ณ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ๋จํ dual-encoder architecture๋ contrastive loss๋ฅผ ํ์ฉํด์ visual & language representation์ ์ ๋ ฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ก์์ผ๋ก๋ถํฐ๋ ๋๊ท๋ชจ์ corpus๋ฅผ ๋ง๋ค ์ ์๊ณ ๊ฐ๋จํ ํ์ต ์คํค๋ง๋ก๋ SoTA๋ฅผ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. A Large-scale Noisy Image-Text Dataset
3. Pre-training & Task Transfer
3-1. Pre-training on Noisy Image-Text Pairs
3-2. Transferring to Image-Text Matching & Retrieval
3-3. Transferring to Visual Classification
4. Experiments & Results
4-1. Image-Text Matching & Retrieval
4-2. Zero-shot Visual Classification
4-3. Visual Classification w/ Image Encoder Only
5. Ablation Study
5-1. Model Architectures
5-2. Pre-training Datasets
6. Conclusion
1. Introduction
๊ธฐ์กด์ ์ฐ๊ตฌ๋ค์์๋ visual๊ณผ vision-language representation ํ์ต์ ๋ณ๊ฐ์ ์๋ก ๋ค๋ฅธ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํ์๋ค. ํนํ vision domain์์๋ ๋๊ท๋ชจ supervised ๋ฐ์ดํฐ์์์ pre-training์ ์ฑ๋ฅ ํฅ์์ ๋์์ ์ฃผ์๋ค. ํ์ง๋ง, ์ด๋ฌํ pre-training ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ๋๋ฐ ์ด๋ ค์์ด ์๋ค.
pre-training๋ vision-language modeling์์ ๋น์ฐํ๊ฒ ์ฌ์ฉ๋๊ธฐ ์์๋๋ค. ํ์ง๋ง vision-language ๋ฐ์ดํฐ๋ vision & NLP ๋๋ฉ์ธ๋ณด๋ค ์ ์ ์์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๋ค. ๋ฐ๋ผ์ vision-language pre-training์ vision๊ณผ NLP pre-training ๋ณด๋ค ํจ์ฌ ๋ ์ ์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋๋์ noisy alt-text ์์ ์ฌ์ฉํด์ visual & visual-language representation์ ํ์ตํ์๋ค. ๊ฑฐ๋ํ noisy dataset์ ๊ฐ์ง๊ธฐ ์ํด Conceptual Captions์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ ๋ฐ๋์ง๋ง, ๋ฐ์ดํฐ์ ์ ์ ๋ฆฌํ๊ธฐ ์ํด ๋ณต์กํ ํํฐ๋ง๊ณผ ํ์ฒ๋ฆฌ ์์ ์ ์ ์ฉํ๋ ๋์ ์ ๊ฐ๋จํ ๋น๋ ๊ธฐ๋ฐ ํํฐ๋ง์ ์ฌ์ฉํ์๋ค. ๊ฒฐ๊ณผ๋ก ๋์จ ๋ฐ์ดํฐ์ ์ ์ก์์ด ์์ฌ ์์ง๋ง, Conceptual Captions ๋ฐ์ดํฐ์ ๋ณด๋ค ํจ์ฌ ํฐ ๋ฐ์ดํฐ์ ์ ์ป์ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ visual & visual-language representation์ pre-train ํ ๊ฒฐ๊ณผ ๋ค์ํ task์ ๋ํด์ ๋งค์ฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค๊ณ ๋งํ๋ค.
๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด, dual-encoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด์ ๊ณต์ ๋ ์ ์ฌ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ visual & language representation์ ์ ๋ ฌํ๋ objective๋ฅผ ํ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๋ชจ๋ธ์ ALIGN: A Large-scale ImaGe and Noisy-text embedding ์ด๋ผ๊ณ ๋ช ๋ช ํ์๋ค. ์ด๋ฏธ์ง ์ธ์ฝ๋ & ํ ์คํธ ์ธ์ฝ๋๋ ์ผ์นํ๋ image-text ์์ ์๋ฒ ๋ฉ์ ํจ๊ป ํธ์ํ๊ณ ์ผ์นํ์ง ์๋ image-text ์์ ์๋ฒ ๋ฉ์ ๋ถ๋ฆฌํ๋ contrastive loss๋ฅผ ํตํด ํ์ต๋๋ค. ์ด ์์ค ํจ์๋ self-supervised & supervised representation ํ์ต์์ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ์์ค ํจ์ ์ค ํ๋์ด๋ค. ์ด๋ฏธ์ง์ fine-grained ๋ผ๋ฒจ์ ์์ ์ด๋ฃจ๋ ํ ์คํธ๋ผ๊ณ ์๊ฐํ๋ฉด, image-to-text contrastive loss๋ ๋ผ๋ฒจ ๊ธฐ๋ฐ ๋ถ๋ฅ objective์ ์ ์ฌํ๋ค. ์ฐจ์ด์ ์ ํ ์คํธ ์ธ์ฝ๋๊ฐ '๋ผ๋ฒจ' ๊ฐ์ค์น๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆผ 1์ ์ผ์ชฝ ์๋ ALIGN์์ ์ฌ์ฉ๋๋ method์ ๋ํด์ ์์ฝํ๊ณ ์๋ค.
2. A Large-scale Noisy Image-Text Dataset
๋ ผ๋ฌธ์ ๋ชฉ์ ์ visual & vision-language representation ํ์ต์ ๊ท๋ชจ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด๋ค. ์ด ๋ชฉ์ ์ ์ํด ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ๋ณด๋ค ํจ์ฌ ํฐ ๋ฐ์ดํฐ์ ์ ์์งํ์๋ค. ์ด๋ฅผ ์ํด Conceptual Captions ๋ฐ์ดํฐ์ ์ ํ์ฑ ๋ฐฉ์์ ๋ฐ๋ผ์ raw English alt-text ๋ฐ์ดํฐ๋ฅผ ์ป์๋ค. Conceptual Captions ๋ฐ์ดํฐ์ ์ ๋ฌด๊ฑฐ์ด ํํฐ๋ง๊ณผ ํ์ฒ๋ฆฌ๋ฅผ ํตํด ์ ๋ฆฌ๋์ง๋ง, ์ฌ๊ธฐ์์๋ scaling์ ๋ชฉํ๋ฅผ ์ํด quality์ scale์ ๋ง๊ตํํ์๋ค. ๊ทธ ๋์ ์ ์ต์ํ๋ ๋น๋ ๊ธฐ๋ฐ์ ํํฐ๋ง๋ง์ ์ ์ฉํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ๋์จ ๋ฐ์ดํฐ์ ์ ๋งค์ฐ ํฌ์ง๋ง ์ก์์ด ์์ฌ ์๋ค. ๊ทธ๋ฆผ 2๋ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ๋ช ๊ฐ์ ์ํ image-text ์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
Image-based filtering. ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด์๋ ๋ค์์ ์ด๋ฏธ์ง๋ค๋ง์ ๋จ๊ฒจ๋์๋ค.
- ์งง์ ์ฐจ์์ ํฌ๊ธฐ๊ฐ 200 pixel ์ด์์ธ ์ด๋ฏธ์ง๋ง ์ ์ง
- ์ข ํก๋น(aspect ratio)๊ฐ 3 ์ด์์ธ ์ด๋ฏธ์ง๋ง ์ ์ง
- test image์์ ๋ณต์ ๋ ๋ฐ์ดํฐ๋ ์ ๊ฑฐ
Text-based filtering. ํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด์๋ ๋ค์์ ํ ์คํธ๋ค๋ง์ ๋จ๊ฒจ๋์๋ค.
- 10๊ฐ ์ด์์ ์ด๋ฏธ์ง์์ ๊ณต์ ๋ alt-text๋ ์ ์ธ
- ํฌ๊ทํ ํ ํฐ or ๋๋ฌด ์งง๊ฑฐ๋ ๊ธด alt-text๋ ์ ์ธ
3. Pre-training & Task Transfer
3-1. Pre-training on Noisy Image-Text Pairs
๋ ผ๋ฌธ์์๋ ALIGN์ dual-encoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ pre-train ํ์๋ค. ๋ ผ๋ฌธ์์๋ ์กฐํฉ ํจ์๋ฅผ ์์ ์ฌ์ฉํ ์ด๋ฏธ์ง ์ธ์ฝ๋ & ํ ์คํธ ์ธ์ฝ๋์ ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ด๋ฏธ์ง ์ธ์ฝ๋๋ก๋ global pooling์ ์ฌ์ฉํ EfficientNet์ ์ฌ์ฉํ์๊ณ , ํ ์คํธ ์ธ์ฝ๋๋ก๋ [CLS] ํ ํฐ ์๋ฒ ๋ฉ์ ์ฌ์ฉํ BERT๋ฅผ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ์ง ์ธ์ฝ๋์์ ์ฐจ์์ ๋ง์ถ๊ธฐ ์ํด linear activation์ ์ฌ์ฉํ fully-connected layer๊ฐ BERT encoder์ ์์ ์ถ๊ฐ๋์๋ค. ์ด๋ฏธ์ง ์ธ์ฝ๋์ ํ ์คํธ ์ธ์ฝ๋๋ ์ฒ์๋ถํฐ ํ์ต๋๋ค.
์ด๋ฏธ์ง ์ธ์ฝ๋์ ํ ์คํธ ์ธ์ฝ๋๋ ์ ๊ทํ๋ softmax ์์ค์ ํตํด ์ต์ ํ๋๋ค. ํ์ต์์ ๋ ผ๋ฌธ์์๋ matched image-text ์์ positive๋ก, ๋ค๋ฅธ ๋๋ค image-text ์์ negative ๋ฐฐ์น๋ก ํ์ฑํ์๋ค.
๋ ผ๋ฌธ์์๋ ์ต์ข loss๋ก image-to-text ๋ถ๋ฅ loss์
text-to-image ๋ถ๋ฅ loss์ ํฉ์ ์ฌ์ฉํ์๋ค.
์ฌ๊ธฐ์ $x_i$๋ $i$๋ฒ์งธ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ด๊ณ , $y_j$๋ $j$๋ฒ์งธ ํ ์คํธ ์๋ฒ ๋ฉ์ด๋ค. $N$์ ๋ฐฐ์น ์ฌ์ด์ฆ, $\sigma$๋ logit์ scale ํ๊ธฐ ์ํ temperature์ด๋ค. ๋ฐฐ์น ๋ด์์ negative๊ฐ ๋ณด๋ค ํจ๊ณผ์ ์ด๋ ค๋ฉด ๋ชจ๋ ์ปดํจํ ์ฝ์ด์ ์๋ฒ ๋ฉ์ ์ฐ๊ฒฐํ์ฌ ํจ์ฌ ๋ ํฐ ๋ฐฐ์น๋ฅผ ํ์ฑํด์ผ ํ๋ค. ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ ํ ์คํธ ์๋ฒ ๋ฉ์ด ๋ชจ๋ L2-normalized ๋๋ฏ๋ก temperature ๋ณ์๊ฐ ์ค์ํ๋ค. ์๋์ ์ผ๋ก ์ต์ ์ temperature ๊ฐ์ ์ฐพ๋ ๋์ ์ ๋ค๋ฅธ ๋ชจ๋ ํ๋ผ๋ฏธํฐ์ ํจ๊ป ํ์ต๋๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์ฐพ์๋ด์๋ค.
3-2. Transferring to Image-Text Mathcing & Retrieval
๋ ผ๋ฌธ์์๋ ALIGN ๋ชจ๋ธ์ image-to-text & text-to-image retrieval task์์ fine-tuning์ ํ ๊ฒ๊ณผ ์ ํ ๊ฒ์ ๋ํด ํ๊ฐํ์๋ค. ์ด๋ฅผ ์ํด ๋ ๊ฐ์ง ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค: Flickr30K, MSCOCO. ๊ทธ๋ฆฌ๊ณ ์ถ๊ฐ์ ์ผ๋ก Crisscrossed Caption(CxC) ๋ฐ์ดํฐ์ ์ ๋ํด์๋ ํ๊ฐํ์๋ค.
3-3. Transferring to Visual Classification
๋ ผ๋ฌธ์์๋ ALIGN์ zero-shot ์ ๋ฌ์ ImageNet์ ๋ค์ํ ๋ณํ์ ๋ํด ์ ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ํ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ downstream visual classification task๋ก ์ ๋ฌํ์๋ค.
4. Experiments & Results
๋ ผ๋ฌธ์์๋ EfficientNet์ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ก, BERT๋ฅผ ํ ์คํธ ์ธ์ฝ๋๋ก ์ฌ์ฉํจ์ผ๋ก์จ ALIGN model์ ์ฒ์๋ถํฐ ํ์ต์์ผฐ๋ค. ์ด๋ฏธ์ง ์ธ์ฝ๋๋ ํด์๋ $289 \times 289$ pixel์์ ํ์ต๋์๋๋ฐ, ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ $346 \times 346$ ํด์๋๋ก ์ฌ์ด์ฆ๋ฅผ ๋ณ๊ฒฝํ๊ณ ํ์ต ์์๋ random crop์ ์ํํ์๊ณ , ํ ์คํธ ์์๋ central crop์ ์ฌ์ฉํ์๋ค. BERT๋ฅผ ์ํด์ ๋ ผ๋ฌธ์์๋ wordpiece ์ํ์ค๋ฅผ ์ต๋ 64๊ฐ์ ํ ํฐ๊น์ง๋ง ํฌํจํ๋๋ก ํ์๋ค.
4-1. Image-Text Matching & Retrieval
๋ ผ๋ฌธ์์๋ ALIGN์ Flickr30K & MSCOCO ๋ฒค์น๋งํฌ์ ๋ํด์ zero-shot๊ณผ fully fine-tuned ์ธํ ์์ ํ๊ฐํ์๋ค. ๋ค์์ ํ 1์ ์ด์ ์ ๋ชจ๋ธ๋ค๊ณผ์ ๋น๊ต ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
ํ 1์ ์ดํด๋ณด๋ฉด ALIGN์ด FLickr30K & MSCOCO ๋ฒค์น๋งํฌ์์ SoTA๋ฅผ ๋ฌ์ฑํ์์์ ์ ์ ์๋ค.
- zero-shot: ์ด์ ์ SoTA์ ๋นํด 7% ๋ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
- fine-tune: ๋์ฑ ๋ณต์กํ cross-modal attention layer๋ฅผ ํ์ฉํด ๊ธฐ์กด์ method๋ณด๋ค ํฐ ๋ง์ง์ ๋๊ณ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ์.
๋ค์์ ํ 2์์๋ CrissCrossed Captions ๋ฐ์ดํฐ์ ์์ ALIGN์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์๋ค. image-to-text & text-to-image์์ ๊ธฐ์กด์ SoTA๋ณด๋ค ํฐ ๋ง์ง์ ๋๊ณ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, intra-modal task์์๋ ๋ณ ํจ๊ณผ๋ฅผ ๋ณด์ง ๋ชปํ๋ค. ์๋ฅผ ๋ค์ด text-to-text & image-to-image task์์์ ์ฑ๋ฅ ํฅ์์ image-to-text & text-to-image์ ๋นํด์ ๊ทธ๋ฆฌ ํฌ์ง ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
4-2. Zero-shot Visual Classification
๋ ผ๋ฌธ์์๋ ํด๋์ค ๋ค์์ ํ ์คํธ ์ธ์ฝ๋์ ๋ฐ๋ก ๋ฃ์ผ๋ฉด, ALIGN์ image-text retrieval์ ํตํด ์ด๋ฏธ์ง๋ฅผ ํ๋ณด์ ํด๋์ค๋ก ๋ถ๋ฅํ ์ ์๋ค. ํ 3์ ImageNet๊ณผ ๊ทธ ๋ณํ์ ๋ํด์ ALIGN๊ณผ CLIP์ ๋น๊ตํ์๋ค. ALIGN์ CLIP๊ณผ ์ ์ฌํ๊ฒ ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง ๋ถํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ๋ฅ task์์ ์ข์ robustness๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
4-3. Visual Classification w/ Image Encoder Only
ImageNet ๋ฒค์น๋งํฌ์์ ํ์ต๋ visual feature๋ฅผ ๋๊ฒฐ์ํค๊ณ ์ค์ง classification head๋ง ํ์ต์์ผฐ๋ค. ๊ทธ๋ค์์ ๋ชจ๋ ๋ ์ด์ด๋ฅผ fine-tune ํ์๋ค. ๋ ผ๋ฌธ์์๋ random cropping๊ณผ horizontal flip์ ํฌํจํ ์ผ๋ฐ์ ์ธ data augmentation์ ์ฌ์ฉํ์๋ค. ๋ค์์ ํ 4๋ ImageNet ๋ฒค์น๋งํฌ์์ ALIGN๊ณผ ์ด์ ์ method๋ค ๊ฐ์ ๋น๊ต๋ฅผ ํ๊ณ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด frozen feature์์๋ ALIGN์ด CLIP๊ณผ ๋ค๋ฅธ SoTA ๊ฒฐ๊ณผ๋ค๋ณด๋ค ์ด์ง ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. fine-tuning ํ์๋ ALIGN์ด BiT์ ViT ๋ณด๋ค ๋ ๋์ ์ ํ๋๋ฅผ ๋ณด์ด๋ ๊ฒ์ ์ ์ ์๋ค.
ํ 5๋VTAB์์ 3๊ฐ์ fine-tuning ์คํ์ผ๋ก๋ถํฐ ํ๊ท ์ ํ๋์ ํ์ค ํธ์ฐจ๋ฅผ ๊ธฐ๋กํ๊ณ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ALIGN์ด BiT-L๊ณผ ๋น์ทํ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ ํ์ด ์ ์ฉ๋์์์๋ ์ด๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ ๊ฒ์ ์ ์ ์๋ค.
5. Ablation Study
ablation study์์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋๋ถ๋ถ MSCOCO zero-shot retrieval๊ณผ ImageNet KNN task์์ ๋น๊ตํ์๋ค.
5-1. Model Architectures
๋ ผ๋ฌธ์์๋ ์ฒ์์ ALIGN์ ์ฑ๋ฅ์ ์๋ก ๋ค๋ฅธ image & text backbone์ ์ฌ์ฉํด์ ์ฐ๊ตฌํ์๋ค. EfficientNet์ B1๋ถํฐ L2๊น์ง ํ์ต์์ผฐ๊ณ , BERT๋ BERT-Mini๋ถํฐ BERT-Large๊น์ง ํ์ต์์ผฐ๋ค.
๊ทธ๋ฆผ 3์ ์๋ก ๋ค๋ฅธ image & text backbone ์กฐํฉ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๋ชจ๋ธ ํ๋ฆฌํฐ๋ ๋์ฑ ๊ฑฐ๋ํ backbone์ ์ฌ์ฉํจ์ ๋ฐ๋ผ ํฅ์๋๋ ๊ฒ์ ์ ์ ์์๋ค. ์์๋๋ก ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๋ฅ๋ ฅ์ ๋๋ฆฌ๋ ๊ฒ์ vision task๋ฅผ ์ํด ๋์ฑ ์ค์ํ๋ค. image-text retrieval task์์๋ image & text encoder์ ๋ฅ๋ ฅ์ ๋๋ฑํ๊ฒ ์ค์ํ๋ค.
๊ทธ๋ค์์ embedding ์ฐจ์, ๋ฐฐ์น์์ ๋๋ค negative์ ์, softmax temperature๋ฅผ ํฌํจํ ํต์ฌ architecture ํ์ดํผ ํ๋ผ๋ฏธํฐ์ ๋ํด ์ฐ๊ตฌํ์๋ค. ํ 6์ ๋ชจ๋ธ์ ๋ณํ๋ค์ ๋ค์์ ์ธํ ์์ ํ์ต๋ baseline model์ ๋น๊ตํ์๋ค: EfficientNet-B5 image encoder, BERT-Base text encoder, 640์ ์๋ฒ ๋ฉ ์ฐจ์, ๋ฐฐ์น ๋ด์์ ๋ชจ๋ negative, ํ์ต ๊ฐ๋ฅํ softmax temperature.
ํ 6์ 2์ด~4์ด์ ๋์ ์๋ฒ ๋ฉ ์ฐจ์์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฅ์ํ์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ๋์ฑ ๊ฑฐ๋ํ EfficientNet baskbone์ ์ฌ์ฉํ์ฌ ์ฐจ์ scaling์ ๊ฐ๋ฅ์ผ ํ์๋ค. 5์ด~6์ด์์๋ ๋ฐฐ์น ๋ด์์ ๋ ์ ์ negative๊ฐ softmax loss์์ ๋ค์ด๊ทธ๋ ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. temperature ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํ baseline ๋ชจ๋ธ๊ณผ ๋น๊ตํด์, ์์ ์ ํ๋ ๊ณ ์ ๋ temperature๋ ์ด์ง ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์์๋ ์ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ํ์ต์ ์ฝ๊ฒ ๋ง๋ค์ด์ฃผ๋ ํ์ต ๊ฐ๋ฅํ temperature์ ์ ํํ์๋ค. ๋ํ ์ฒ์ 100k ๋จ๊ณ์์ temperature๊ฐ ์ผ๋ฐ์ ์ผ๋ก ์๋ ด๋ ๊ฐ์ ์ฝ 1.2๋ฐฐ๋ก ๋น ๋ฅด๊ฒ ๊ฐ์ํ ๋ค์ ํ์ต์ด ๋๋ ๋๊น์ง ์ฒ์ฒํ ์๋ ด๋๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
5-2. Pre-training Datasets
์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์ ๋ค์ํ ์ฌ์ด์ฆ์ ๋ํด์ ํ์ต๋ ๋, ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์ํ๋๋์ง๋ฅผ ์ดํดํ๋ ๊ฒ ๋ํ ์ค์ํ๋ค. ์ด ๋ชฉํ๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ 2๊ฐ์ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค: 3๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ (full ALIGN ํ์ต ๋ฐ์ดํฐ, ALIGN ํ์ต ๋ฐ์ดํฐ์์ ๋๋ค ํ๊ฒ 10% ์ ๋ ์ํ๋ง ๋จ, Conceptual Captions)์์ EfficientNet-B7 + BERT-base & EfficientNet-B3 + BERT-mini. ํ 7์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๋ชจ๋ธ์ ๊ท๋ชจ๋ฅผ ๋๋ฆฌ๊ณ ๋ ๋์ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด์๋ ๋๊ท๋ชจ์ training set๊ฐ ํ์์ ์ด๋ค. ์๋ฅผ ๋ค์ด ALIGN ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ชจ๋ธ์ CC-3M ๋ฐ์ดํฐ์์ ํ์ตํ ๋ชจ๋ธ๋ณด๋ค ๋ถ๋ช ํ๊ฒ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. CC-3M์ ๊ท๋ชจ๊ฐ ๋ ์์ ๋ฐ์ดํฐ์ ์ด๋ค.
๋ฐ์ดํฐ ์ฌ์ด์ฆ ์กฐ์ ์ด ์ด๋ป๊ฒ ์ฆ๊ฐ๋ ๋ ธ์ด์ฆ๋ฅผ ๊ทน๋ณตํ๋์ง ๋ ์ ์๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก ๋๋คํ๊ฒ ์ํ๋ง๋ 3M, 6M, 12M ALIGN ํ์ต ๋ฐ์ดํฐ์ ์ ๋ฆฌ๋ CC-3M ๋ฐ์ดํฐ๋ฅผ B7+BERT-base model์์ ๋น๊ตํ์๋ค. ํ 8์ CC ๋ฐ์ดํฐ์ ๋๊ฐ์ ์ฌ์ด์ฆ(3M) ์ผ ๋๋ ALIGN ๋ฐ์ดํฐ๊ฐ ๋ ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, 6M๊ณผ 12M์์ ํ์ต๋ ALIGN data๋ ์ด ๊ฐ๊ฒฉ์ ๋น ๋ฅด๊ฒ ๋ฐ๋ผ๋ถ์๋ค. ์ก์์ด ์์์๋ ๋ถ๊ตฌํ๊ณ ALIGN ๋ฐ์ดํฐ๋ Conceptual Captions๋ฅผ 4๋ฐฐ ๋ ์์ ์ฌ์ด์ฆ๋ก ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
6. Conclusion
๋ ผ๋ฌธ์์๋ visual & vision-language representation ํ์ต์ ๊ท๋ชจ๋ฅผ ๋๋ฆฌ๊ธฐ ์ํด ๋๊ท๋ชจ์ noisy image-text ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๊ฐ๋จํ method๋ฅผ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ method๋ ๋ฐ์ดํฐ ํ๋ ์ด์ ๊ณผ ๋ผ๋ฒจ๋ง์ ๋ํ ๋ฌด๊ฑฐ์ด ์์ ์ ํผํ๊ณ , ์ต์ํ์ ๋น๋ ๊ธฐ๋ฐ์ ์ ๋ฆฌ๋ฅผ ํ์๋ก ํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์์ ๊ฐ๋จํ dual-encoder model์ contrastive loss๋ฅผ ์ฌ์ฉํด์ ํ์ต์์ผฐ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ด ALIGN์ด๋ค. ์ด ๋ชจ๋ธ์ cross-modal retrieval์ด ๊ฐ๋ฅํ๊ณ SoTA VSE์ cross-attention vision-language ๋ชจ๋ธ์ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. visual-only downstream task์์ ALIGN์ ๋๊ท๋ชจ์ labeled data๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋ SoTA ๋ชจ๋ธ์ ์คํ๊ฑฐ๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
์ถ์ฒ
https://arxiv.org/abs/2102.05918