The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ ๊ฐ ๋ชจ๋ธ์ pre-training ์ฅ์ ์ ์ ์งํ๋ฉฐ ์ด๋ฏธ์ง์ ํ ์คํธ ๋ชจ๋ธ์ ์ ๋ ฌํ๊ธฐ ์ํ contrastive training์ ์ฌ์ฉํ๋ ๊ฐ๋จํ method๋ฅผ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ ์คํ์ ๋ฐ๋ฅด๋ฉด locked pre-trained image model & unlocked text model์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ฌํ contrastive-tuning์ 'Locked-image Tuning' (LiT)๋ผ๊ณ ๋ถ๋ฅธ๋ค. LiT๋ ์๋ก์ด task์ ๋ํด pre-trained image model๋ก๋ถํฐ ์ข์ representation์ ์ฝ์ด๋ด๊ธฐ ์ํ text model๋ง์ ๊ฐ๋ฅด์น๋ค. LiT ๋ชจ๋ธ์ ์๋ก์ด vision task์ ๋ํด์ zero-shot transfer ๋ฅ๋ ฅ์ ์ป์ ์ ์์๋ค. ์ ์๋ LiT๋ ๊ด๋ฒ์ํ๊ฒ ํ์ฉ ๊ฐ๋ฅํ๋ค: ๋ค์ํ pre-training methods & 3๊ฐ์ ์๋ก ๋ค๋ฅธ image-text ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ ๋ค์ํ architecture์๋ ์ฌ์ฉ ๊ฐ๋ฅ
Table of Contents
1. Introduction
2. Methods
2-1. Contrastive pre-training
2-2. Contrastive-tuning
2-3. Design choices & Locked-image Tuning
3. Image-text datasets
4. Experiments
4-1. Comparison to the previous SoTA
4-2. Evaluation of design choices
4-3. Technical advantages of locked image models
5. Discussion
1. Introduction
์ด์ ์ ์ฐ๊ตฌ๋ค์์ ์ด๋ฏธ์ง ๋ชจ๋ธ(or image tower)๊ณผ ํ ์คํธ ๋ชจ๋ธ(or text tower)์ด ๋์์ ํ์ต๋๋ contrastive learning ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์๋ค. ์ด ๋ ํ์๋ contrastive loss๋ฅผ ์ต์ํํ๊ธฐ ์ํด ํ์ต๋๋ค: ์์ ์ด๋ฃจ๋ ์ด๋ฏธ์ง & ํ ์คํธ์ representation์ ์ ์ฌํ๊ฒ ์์ ์ด๋ฃจ์ง ์์ ์ด๋ฏธ์ง & ํ ์คํธ์ representation์ ๋ค๋ฅด๊ฒ ํจ์ผ๋ก์จ. ํ ์คํธ ์์ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ image embedding๊ณผ textual class ์ค๋ช ์๋ฒ ๋ฉ ๊ฐ์ ๋น๊ต๋ฅผ ํตํด zero-shot ์ด๋ฏธ์ง ๋ถ๋ฅ์ ์ฌ์ฉ๋ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ contrastive learning ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ๊ณ ๋ ๋ง์ ๋ฐ์ดํฐ์ ๊ณ์ฐ ํจ์จ์ ์ธ ์ ๋ต์ธ contrastive-tuning์ ์ ์ํ์๋ค. ํต์ฌ ์์ด๋์ด๋ image-text ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ text tower๋ฅผ ์กฐ์ ํ๋ ๋์์ pre-train๋ ๊ฐ๋ ฅํ ์ด๋ฏธ์ง ๋ชจ๋ธ์ image tower๋ก ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ํ์ต ์ค์ ๋ ํ์์ ๊ฐ์ค์น๋ ์ ๊ฒจ์ง ์๋ ์๊ณ ์ ๊ฒจ์ง์ง ์์ ์๋ ์๋๋ฐ, ๊ทธ๋ฆผ 2์์ ์๋ก ๋ค๋ฅธ ๋์์ธ ์ ํ์ ๋ํด์ ์ค๋ช ํ๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฆผ 1์์ ๋ํ๋ ์๋ ๊ฒ์ฒ๋ผ image tower๋ฅผ ์ ๊ทธ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ด๋ฌํ contrastive-tuning์ "Locked-image Tuning" (LiT)๋ผ๊ณ ๋ถ๋ฅด๊ณ , ์ด ๋ชจ๋ธ์ text model์ด pre-trained image model๋ก๋ถํฐ ์ ํฉํ representation์ ์ฝ์ด๋ด๋๋ก ๊ฐ๋ฅด์น๋ค. LiT์ ์ด์ ์ ๋ชจ๋ธ๋ค๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , out-of-distribution(OOD) ImageNet test์ ๋ํด์๋ ์๋ก์ด SoTA๋ฅผ ๋ฌ์ฑํ์๋ค.
๋ ผ๋ฌธ์์๋ LiT์ด ์ ์๋ํ๋ ์ด์ ๊ฐ ๋ฐ์ดํฐ ์์ค์ ๋ถํด์ image descriptor์ vision-language ์ ๋ ฌ์ ํ์ต์ ์ํ ๊ธฐ์ ์ ์๋ค๊ณ ์๊ฐํ์๋ค. image-text ๋ฐ์ดํฐ๋ ์์ฐ์ด์ ์๊ฐ ๊ฐ์ ๊ด๋ จ์ฑ์ ํ์ตํ๋๋ฐ ์ข์ง๋ง, ๋์์ SoTA image descriptor๋ฅผ ๊ฒฐ๊ณผ๋ก ๋ด๋๊ธฐ์๋ ๋ถ์ ํํ๊ฑฐ๋ ๊นจ๋ํ์ง ์์ ์ ์๋ค.
์ด ๋ ผ๋ฌธ์ ๋๋ค๋ฅธ contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ทธ๋ฆฌ ๋ง์ง ์์ computation resource์ ๊ณต๊ณต ๋ฐ์ดํฐ์ ์์์ ํ์ต์ผ๋ก๋ ๊ณ ์ฑ๋ฅ์ zero-shot ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์.
- ์ด๋ฏธ pre-train๋ ๋ชจ๋ธ์ ์ฌ์ฌ์ฉํจ์ผ๋ก์จ image model์ ํ์ต์ํค๊ธฐ ์ํ computational resource๋ ์ค์ด๋ค ์ ์์.
2. Methods
2-1. Contrastive pre-training
์์ ํ์์ ํ ์คํธ ์ค๋ช ๊ณผ ์์ ์ด๋ฃจ๋ ์ด๋ฏธ์ง(noisy ํ ์๋ ์์)์ ๋ชจ์์ visual model์ ํ์ต์ํฌ ์ ์๋ ๊ฐ๋ ฅํ ์์์ผ๋ก ๋ ์ฌ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ฃผ๋ ์ฅ์ ์ ์ฌ์ ์ ์ ์๋ ์นดํ ๊ณ ๋ฆฌ์ ํ์ ๋ ์ธํธ์ ์ํด์ ์ ํ๋์ง ์๊ณ , ๋์ ์ ์ ์ฝ์ ๋์ง ์๋ ์์ฐ์ด๋ฅผ ์ฌ์ฉํด์ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต๋ ๋ชจ๋ธ์ ๊ด๋ฒ์ํ task์ ๋ํด zero-shot learner๋ก ์ฌ๊ฒจ์ง๋ค.
contrastive pre-training์ image-text ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ชจ๋ธ์ ํ์ต์ํค๋๋ฐ ํจ๊ณผ์ ์ธ ํ๋์ ๋ฐฉ๋ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๋ฐฉ์์ ๋ํด์ ๋ ์์ธํ๊ฒ ์ดํด๋ณด๊ณ image-text ๋ฐ์ดํฐ๋ก๋ถํฐ contrastive pre-training์ ํฅ์์ํค๋ ๊ฐ๋จํ์ง๋ง ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค.
contrastive pre-training ๋ฐฉ์์ ์ฃผ๋ ์์ด๋์ด๋ ๋ ๊ฐ์ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํ์ตํ๋ค๋ ๊ฒ์ด๋ค: image model๊ณผ text model ๋์ ๋๊ฐ์ ์ฐจ์์ representation์ ์์ฑํ๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ contrastive loss๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋๋ค. ์ด loss๋ ํด๋น image-text ์์ ์ ์ฌํ ์๋ฒ ๋ฉ์ ๊ฐ๊ฒ ํ๊ณ , ํด๋นํ์ง ์๋ image-text ์์ ๋ณ๊ฐ์ ์๋ฒ ๋ฉ์ ๊ฐ๊ฒ ํ๋ค.
์ด ์์ค ํจ์์ ์ค์ํ ๋ํ ์ผ์ loss๊ฐ ๊ฐ๊ฐ์ accelerator device์์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ณ์ฐ๋๊ณ ์ถ์ ๋๊ฑฐ๋ ๋ชจ๋ ๋๋ฐ์ด์ค์ ๋ํด ๊ณต๋์ผ๋ก ๊ณ์ฐ๋๋ค. ์คํ์ ์งํํ ๊ฒฐ๊ณผ ํ์์ ๊ฒฝ์ฐ๊ฐ ์ผ๊ด์ ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ ๊ทธ๋์ ๋ชจ๋ ์คํ๊ณผ ablation์์ global loss๋ฅผ ์ฌ์ฉํ์๋ค.
image tower์ text tower๊ฐ ํ์ต๋๊ณ ๋๋ฉด, ์ด๋ค์ zero-shot ๋ถ๋ฅ์ ๋ฐ๋ก ์ฌ์ฉ๋ ์ ์๋ค: ํด๋์ค ์ด๋ฆ ๋๋ ์ค๋ช ์ ํ ์คํธ ๋ชจ๋ธ๊ณผ ํจ๊ป ์๋ฒ ๋ฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ง์ ๋ ์ด๋ฏธ์ง์ ๋ํด ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์๋ฒ ๋ฉ์ด ์๋ ๋ ์ด๋ธ์ด ์ ํ๋๋ค.
2-2. Contrastive-tuning
contrastive pre-trainin์ ๋ ๊ฐ์ task๋ฅผ ๋์์ ํ์ตํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์ ์๋ค. ์ด ๋ชจ๋ task๋ฅผ ๋์์ ํด๊ฒฐํ๋๋ฐ image-text ๋ฐ์ดํฐ์์์ pre-training์ ์ ์๋ํ๊ธด ํ๋, ์ต์ ์ ๋ฐฉ๋ฒ์ ์๋ ์๋ ์๋ค.
- ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ํ์ตํ๊ณ
- ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ๋ง์ถฐ ์ ๋ ฌํ๊ธฐ ์ํด ํ ์คํธ ์๋ฒ ๋ฉ์ ํ์ต
์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ํ์ตํ๊ธฐ ์ํ ๊ธฐ์กด์ ๋ฐฉ๋ฒ์ ๊ฑฐ๋ํ๊ณ ๋น๊ต์ ๊นจ๋ํ ์๋์ ์ผ๋ก ๋ผ๋ฒจ๋ง๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ฐฉ์์ ๋ถ๋ช ํ ์ฝ์ ์ ๊ฐ์ง๊ณ ์๋ค: ์ฌ์ ์ ์ ์๋ ์นดํ ๊ณ ๋ฆฌ ์ธํธ, ๋ฐ๋ผ์ ์ด ๋ฐ์ดํฐ์์ pre-train ๋ ๋ชจ๋ธ์ ์ด ์นดํ ๊ณ ๋ฆฌ์ ๋ํด์๋ง ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค. ์ด์ ๋ฐ๋๋ก image-text ๋ฐ์ดํฐ๋ ์์ ํ์ ํ ์คํธ๋ก๋ถํฐ ํ์ตํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ์ ํ์ ๊ฐ์ง ์๋๋ค. ๊ทธ๋ ์ง๋ง ์กฐ๊ธ ๋จ์ด์ง๋ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ง ์๋ ์๋ค.
๋ ผ๋ฌธ์์๋ ์ด ๋ ๊ฐ์ง ์ ํ์ ๋ฐ์ดํฐ์ ์ฅ์ ์ ํฉ์น๊ธฐ ์ํด contrastive-tuning์ ์ ์ํ์๋ค. ์ด๋ฅผ ํ๊ธฐ ์ํ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ์๋์ผ๋ก ๋ผ๋ฒจ๋ง๋ ๊นจ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ ์ด๋ฏธ pre-train ๋ ์ด๋ฏธ์ง ๋ชจ๋ธ์ ์ฌ์ฉํด contrastive pre-training์ ์ด๊ธฐํ์ํค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ ๋ ๋ฆฝ์ ์ผ๋ก image-text ์ ๋ ฌ์ ํ์ตํ์ฌ ๋ ๋ฐ์ดํฐ ์์ค์ ์ด์ ์ ๋ชจ๋ ํ์ฉํ ์ ์๋ค. supervised pre-trained ์ด๋ฏธ์ง ๋ชจ๋ธ์ ์ฌ์ฉํจ์ผ๋ก์จ, ์ ์๋ contrastive-tuning์ ์ด๋ ํ ๋ชจ๋ธ์ด๋ ์ง ์ฌ์ฉ ๊ฐ๋ฅํ๋ค.
2-3. Design choices and Locked-image Tuning
pre-trained image ๋๋ text model์ contrastive learning ์ธํ ์ ์๊ฐํ๋ ๊ฒ์ ์ฌ๋ฌ ๋์์ธ ์ ํ์ ํฌํจํ๋ค. ์ฒซ ๋ฒ์งธ๋ก, ๊ฐ ํ์(image & text)๋ ๋ ๋ฆฝ์ ์ผ๋ก ๋๋ค ํ๊ฒ ์ด๊ธฐํ๋๊ฑฐ๋ pre-trained model๋ก๋ถํฐ ์ด๊ธฐํ๋ ์ ์๋ค. pre-trained model์ ๋ํด ์ฌ๊ธฐ์๋ ์ต์ 2 ๊ฐ์ง์ ๋ณํ์ด ์๋ค: lock(freeze) or fine-tuning ํ์ฉ.
pre-trained image-text modal์ ์๋ก ๋ค๋ฅธ representation ์ฌ์ด์ฆ๋ฅผ ๊ฐ์ง๋, contrastive loss๋ ๋๊ฐ์ ์ฌ์ด์ฆ์ representation์ ์์ธกํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์ผ๋ฐ ์ฐจ์์ผ๋ก representation์ ๋งคํํ๋ ์ต์ ์ linear projection(head)๋ฅผ ๊ฐ ํ์์ ์ถ๊ฐํ์๋ค. ์๋๋ MLP ๊ธฐ๋ฐ ํค๋์ ๋ํ preliminary investigation์์๋ ์ด๋ฌํ ๊ฐ๋จํ ์ ํ ํค๋์ ๋นํด ์๋นํ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง์ง ์์๋ค.
๋ ผ๋ฌธ์์๋ ๊ทธ๋ฆผ 2์ ์ธ๊ธ๋์ด ์๋ ๊ฒ์ฒ๋ผ ์ ์ฌ์ ๋์์ธ ์ ํ์ ์ํ 2-character notation์ ์๊ฐํ์๋ค. ๊ฐ๊ฐ์ ์บ๋ฆญํฐ๋ ์ ํ๋ image model๊ณผ text model์ ๋ํด์ ์ธํ ์ ์ธ์ฝ๋ฉํ๋ค. ๋ ผ๋ฌธ์์๋ 3๊ฐ์ ๊ฐ๋ฅํ ์ธํ ์ ์๊ฐํ์๋ค. ์๋ฅผ ๋ค์ด Lu๋ locked pre-trained image model & unlocked(trainable) ๋๋ค ํ๊ฒ ์ด๊ธฐํ๋ text model์ ์๋ฏธํ๋ค.
- L: locked ๊ฐ์ค์น. pre-trained model๋ก๋ถํฐ ์ด๊ธฐํ
- U: unlocked/trainable ๊ฐ์ค์น. pre-trained model๋ก๋ถํฐ ์ด๊ธฐํ
- u: unlocked/trainable ๊ฐ์ค์น. ๋๋คํ๊ฒ ์ด๊ธฐํ
์ด์ ์ ์ฐ๊ตฌ๋ค์ ๋ฐ๋ฐ๋ฅ๋ถํฐ ํ์ต์ ํ๋ uu ๋ชจ๋ธ์ด๋ค. ๋ ผ๋ฌธ์ ์คํ์ ์ํ๋ฉด Lu ์ธํ ์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ Locked-image Tuning(LiT๐ฅ) ๋ผ๊ณ ์ด๋ฆ ๋ถ์๋ค.
3. Image-text datasets
๋ ผ๋ฌธ์์๋ Conceptual Captions(CC12M)์ Tahoo Flickr Creative Commons(YFCC100m) ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์ ๋ฐ๋ก ์์งํ ๋ฐ์ดํฐ์ ๋ ์ฌ์ฉํ์๋๋ฐ, ์ด ๋ฐ์ดํฐ์ ์ ALIGN๊ณผ ๋๊ฐ์ ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ผ์ ๋๊ฐ์ image-base filtering์ ์ฌ์ฉํ์ง๋ง ๋์ฑ ๊ฐํธํ text-based filtering์ ์ฌ์ฉํ์ฌ 40์ต ๊ฐ์ image & alt-text ์์ ์์งํ์๋ค. ์คํด์ ์์ง๊ฐ ์๋ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ํผํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ํ๊ฐํ๋ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ๊ฑฐ์ ๋ณต์ ์ ๊ฐ๊น์ด ์ด๋ฏธ์ง๋ค์ ์ ๊ฑฐํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ ผ๋ฌธ์ ๋ฐ์ดํฐ์ ์์ฑ์ด ์ฃผ๋ contribution์ด๋ผ๊ณ ์๊ฐํ์ง ์์๋ค; ๋ ผ๋ฌธ์ method์ ํจ์จ์ฑ์ ๊ท๋ชจ ์ธก๋ฉด์์ ์ค๋ช ํ๊ธฐ ์ํด ALIGN์ ๋ฐ์ดํฐ ์์ง ํ๋ก์ธ์ค๋ฅผ ๊ฐ๋จํ๊ฒ ๋ง๋ค์์ ๋ฟ์ด๋ค.
4. Experiments
4-1. Comparison to the previous SoTA
์ด ์น์ ์์, ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์์ LiT์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. image tower๋ JFT-3B์์ pre-train ๋ ViT-g/14 ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ด๊ธฐํํ์๋ค. ๊ทธ๋ฆฌ๊ณ 32k์ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ์ฌ์ฉํ๊ณ 180์ต ๊ฐ์ image-text ์์ ๋ํด์ ์กฐ์ ์ ํ์๋ค.
๋ ผ๋ฌธ์์๋ LiT method์ CLIP๊ณผ ALIGN์ ํฌํจํ๋ ์ด์ ์ SoTA method๋ค๊ณผ ๋น๊ตํ์๋ค. ํ 1์์๋ ImageNet ๋ฐ์ดํฐ์ , 5๊ฐ์ out-of-distribution(OOD) ํ ์คํธ, 7๊ฐ์ VTAB-natural task์์ zero-shot ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ์๋ค. LiT๋ ImageNet zero-shot ๋ถ๋ฅ์์ ์ด์ ์ SoTA ๋ชจ๋ธ์ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. CLIP๊ณผ ALIGN์์ ๊ฐ๊ฐ 9%์ 8.8%์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ zero-shot transfer ๊ฒฐ๊ณผ์ supervised fine-tuned ๊ฒฐ๊ณผ ๊ฐ์ ๊ฐญ์ ์ ๋ฐ์ด๋ ์ค์ธ ๊ฒ์ด๋ค.
Robustness. ๋ชจ๋ OOD ๋ณํ์์, LiT๋ ์ด์ ์ ๋ชจ๋ธ๋ค๋ณด๋ค ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Diverse downstream tasks. ๋ ผ๋ฌธ์์๋ 19๊ฐ์ ๋ค์ํ task๋ก ๊ตฌ์ฑ๋์ด ์๋ VTAB์์ LiT ๋ชจ๋ธ์ ํ๊ฐํ์๋ค. 7๊ฐ์ VTAB-natural task์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ํ 1์ ๋ํ๋ ์๋ค. LiT ๋ชจ๋ธ์ supervised fine-tunes ResNet50 baseline๊ณผ ๋น๊ตํด์ ๋ ์ ๋งํ zero-shot ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค.
Data & compute efficiency. ๊ทธ๋ฆผ 1์ ๋ ์ ์ image-text ์๊ณผ ํจ๊ป ์กฐ์ ํ์ ๋์ ๋ ๋ง์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ค์ง 300M ๊ฐ์ image-text ์๊ณผ LiT์ ์ฌ์ฉํ์ ๋ ๋ชจ๋ธ์ zero-shot ImageNet transfer์์ 81.7%์ top-1 accuracy๋ฅผ ๋ฌ์ฑํ์๋ค. LiT๋ literature์์ ์ด๋ฏธ pre-train๋ ๋ชจ๋ธ์ ์ฌ์ฌ์ฉํด์ ์ด๋ฏธ์ง ๋ชจ๋ธ์ ์ฌ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋๋ computational resource๋ฅผ ์ค์ด๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค.
Results on public datasets. LiT์ ๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๊ฐ์ํ ๋ ๋ ผ๋ฌธ์์๋ ๋ ์๊ณ ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ ์ธํธ๋ง ์ฌ์ฉํ ๋ LiT๊ฐ ์ผ๋ง๋ ์ ์ํ๋๋์ง ์กฐ์ฌํ์๋ค. ์์ธํ๊ฒ ์ดํด๋ณด๋ฉด, YFCC100m-CLIP๊ณผ CC12M์ ์กฐํฉ ๋ฐ์ดํฐ์ ์์ pre-train ๋ ViT-L/16 ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ImageNet-21k๋ฅผ ์กฐ์ ํ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ ImageNet์์ ์ ๋ก ์๋ 75.7%์ zero-shot transfer์ ๋ฌ์ฑํ์๋ค. ์ด๋ ์ค์ง ๊ณต๊ณต ๋ฐ์ดํฐ ์์ค๋ง ์ฌ์ฉํ ์ด์ ์ SoTA ๋ชจ๋ธ๋ณด๋ค 30.9% ๋ ํฅ์๋ ์ฑ๋ฅ์ด๋ค. ๋ํ LiT๋ ๊ด๋ฒ์ํ robustness ๋ฐ์ดํฐ์ ๊ณผ VTAB-natural task์ ๋ํด์ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค.
4-2. Evaluation of design choices
Small-scale thorough investigation. ๋ ผ๋ฌธ์์๋ pre-trained ๊ฐ์ค์น์ locked(L) ๋๋ unlocked(U), ๋๋ค ํ๊ฒ ์ด๊ธฐํ๋๋ unlocked(u)๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐํ๋ image์ text tower์ ๋ค์ํ ์กฐํฉ์ ๋ํด ์ฐ๊ตฌํ์๋ค. ๋ ผ๋ฌธ์์๋ YFCC100m-CLIP ๋ฐ์ดํฐ์ ์์ ๊ฐ ์ค์ ์ ์ฌ๋ฌ ๋ฒ ํ์ตํ๊ณ , ์ธํ ์ ๊ถค์ ์ ์ดํดํ๊ธฐ ์ํด ์ด ๋จ๊ณ ์๋ฅผ 2,500์์ 60,000์ผ๋ก ๋ณ๊ฒฝํ๊ณ , ์ค๋๋ฅผ ํผํ๊ธฐ ์ํด learning rate ๋ฐ weight-decay๋ฅผ ๋ณ๊ฒฝํ์๋ค. ๊ทธ๋ฆผ 3์ ๊ฐ๊ฐ์ ์ธํ ์ ๋ํ ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ณก์ ์ ๊ฐ ์ ์ ๊ทธ ๊ธฐ๊ฐ์ ๋ํ ๊ฐ๊ฐ์ full run์ด๋ค. image tower๋ฅผ ์ ๊ทธ๋ ๊ฒ์ ๊ฑฐ์ ํญ์ ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ pre-trained image tower๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์๋นํ ๋์๋๋ค. ๊ทธ์น๋ง pre-trained text tower๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์กฐ๊ธ์ ์ฑ๋ฅ ํฅ์ ๋ฐ์ ๋ณด์ฌ์ฃผ์ง ์๊ณ text tower๋ฅผ ์ ๊ทธ๋ ๊ฒ์ ์ ์๋ํ์ง ์๋๋ค.
This still holds in the near-infinite data regime. ๋๊ตฐ๊ฐ๋ pre-trained image tower๋ฅผ ์ ๊ทธ๋ ๊ฒ์ด ์ ์๋๋๋ ์ด์ ๊ฐ YFCC100m-CLIP ๋ฐ์ดํฐ์ ์ด ๋น๊ต์ ์๊ธฐ ๋๋ฌธ์ด๊ณ , ๋๋ค ํ๊ฒ ์ด๊ธฐํ๋ image tower๋ ๋์ฑ ํฐ image-text ๋ฐ์ดํฐ์ ์์ locked model์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ ์ ์๋ค. ๊ทธ๋ฆผ 3์ Uu์ UU ์ธํ ์ ๊ณก์ ์ ์ด๋ฌํ ์์ธก์ ๋ท๋ฐ์นจํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ธ๋ค.
ํ์ง๋ง ๋๋๊ฒ๋ ์คํ์ ๊ฒฐ๊ณผ๋ image tower๋ฅผ ์ ๊ทธ๋ ๊ฒ์ด ๋งค์ฐ ํฐ image-text ์์ ๋ฐ์ดํฐ์ ์์ contrastive ํ๊ฒ ์กฐ์ ๋ ๋ ์ด์ต์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ 2๋ 3๊ฐ์ ์ธํ (Lu, Uu, uu)์์ 40์ต ๊ฐ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋ํ contrastive tuning์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. uu๋ CC12M๊ณผ YFCC100m-CLIP ๊ฐ์ ์์ ๋ฐ์ดํฐ์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
pre-trained model๋ก๋ถํฐ ์ด๊ธฐํ๋ image tower๋ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๊ณ CLIP/ALIGN์ ๋น๊ต์ ๊ฐ๋จํ ์ฐ์ฅ์ด๋ค. ๋๋๊ฒ๋ frozen setup Lu๋ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ฒ ๋๋ค. ๋ฐ๋ฉด์ ๋ค๋ฅธ ๊ด์ ์์ LiT๋ ๊ฐ๋ ฅํ ์ด๋ฏธ์ง ์๋ฒ ๋๋ก๋ถํฐ ์ง์์ ์ถ์ถํ๋ text tower์ ๊ฐ๋จํ๊ฒ ํ์ตํ๋ค. ์ด๋ฌํ ์ ์ฐํ๊ณ ์ฑ๋ฅ์ด ์ข์ ์ ์ ์ text-embedding tower๋ฅผ ๋ถ์์ผ๋ก์จ ๊ธฐ์กด์ vision backbone์ zero-shot learner๋ก ๋ณํํ ์ ์๋ค.
Why is locked(L) better than unlocked(U)? image tower๋ฅผ ์ ๊ทธ๋ ๊ฒ์ image tower๊ฐ contrastive-tuning ์ค์ ์ ์๋๋๋ก ํ๋ฝํ๋ ๊ฒ๋ณด๋ค ๋ ๋ซ๋ค๋ ๊ฒ์ ์ด๋ ์ ๋ ๋๋๊ณ ์ง๊ด์ ๋ฐ๋๋๋ ์ฌ์ค์ด๋ค. ๊ทธ๋ฆผ 4๋ ์ด๋ฌํ ์ด์ ์ ๋ํด ํํธ๋ฅผ ์ค๋ค.
์ฒซ ํ์ image tower๋ฅผ ์ ๊ทธ๋ ๊ฒ์ด LiT์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ์์ ์๋นํ ์ ์ข์ loss๋ฅผ ์ด๋๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ฐ๋ฉด์ locked image ๋ณํ์ loss๋ COCO caption๊ณผ ๊ฐ์ out-of-distribution(OOD) ๋ฐ์ดํฐ์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค (์ค๊ฐ ํ).
๋ ผ๋ฌธ์์๋ pre-logits์์ few-shot linear regression์ผ๋ก ์ป์ด์ง ์ฑ๋ฅ์ ํตํด ์ด๋ฏธ์ง ๋ชจ๋ธ์ representation quality๋ฅผ ์ธก์ ํ๋ค (์๋ ํ). ์ด ๋ชจ๋ ๊ฒ์ ํฉ์ณ์ ์ด ๊ทธ๋ฆผ์ pre-trained image model์ image representation์ ๋งค์ฐ ์ ์ผ๋ฐํ๋์ง๋ง, contrastive ํ fine-tuning์ visual representation์ ์ผ๋ฐ์ฑ์ ์ ํ์ํจ๋ค. ์ด๋ contrastive ๋ฐ์ดํฐ์ ์์๋ ๋ ์ข์ง๋ง ๋ค๋ฅธ ๋ชจ๋ ๊ณณ์์๋ ๋ ๋์๊ฒ ๋ง๋ ๋ค. ์ด๋ ์กฐ์ ์ค์ image tower๋ฅผ ์ ๊ทธ๋ฉด(์: LiT) ์ ์ ๋ ฌ๋์ง๋ง ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ํนํ๋ image-text ๋ชจ๋ธ๊ณผ ๋ฐ๋๋ก ์ด๋ฏธ ๊ฐ๋ ฅํ๊ณ ์ผ๋ฐ์ ์ธ image representation์ ์ ์ ๋ ฌ๋ ํ ์คํธ ๋ชจ๋ธ๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ ๋ํ๋ธ๋ค.
4-3. Technical advantages of locked image models
locked image tower๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋ง์ ์ด์ต์ ๊ฐ์ง๋ค. ์ด์ ๋ํ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค. ์ด ๋ชจ๋ ๊ฒ์ด ํฉ์ณ์ ธ์, ์ด๋ฌํ ๊ตฌํ feature๋ ๋๊ท๋ชจ ๋ฐฐ์น ์ฌ์ด์ฆ์์ ๊ฑฐ๋ํ ๋ชจ๋ธ์ ์ฌ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ ์ ์๋ค.
- image tower๋ฅผ ์ํ ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ์ด ํ์ ์๊ธฐ์ ํ์ต์ ์๋นํ ๋นจ๋ผ์ง๊ณ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๊ฐ์ํจ.
- augmentation์ด ์ฌ์ฉ๋์ง ์์ผ๋ฉด, ์ด๋ฏธ์ง ๋ชจ๋ธ์ ์๋ฒ ๋ฉ์ ํ ๋ฒ์ ์ฆ์ ๊ณ์ฐ๋ ์ ์์. ์ด๋ ๊ณ์ฐ ์๊ฐ & ๋ฉ๋ชจ๋ฆฌ ํ์๋ฅผ ์ค์ฌ์ค๋ค.
5. Discussion
Limitations. cross-modal retrieval task์์๋ Uu ์ ์ ๊ณผ UU ์ ์ ์ ๋นํด Lu ์ ์ ์ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง ์๋๋ค. ๋งค์ฐ ๊ธด tuning์์๋ ๊ฐ๋ Uu ๋๋ UU๊ฐ Lu๋ฅผ ๋์ด์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค. ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ ์ ์๋ Lu ์ ์ ์ด ๊ณ ์ ๋ ์์ฐ์์ ๊ณ์ฐ ๋น์ฉ์ ์๋ ์ ์์ง๋ง, ์ถฉ๋ถํ ํฐ ์์ฐ์์๋ ๋ง์ฝ zero-shot ๋ถ๋ฅ๊ฐ ์ฃผ๋ ๋ชฉํ๊ฐ ์๋๋ผ๋ฉด Uu ์ ์ ๋ํ ์ ์ฉํ ๊ฒ์ด๋ผ๊ณ ๋งํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2111.07991