OpenAI์์ ๊ณต๊ฐํ๋ CLIP์ ๋ ผ๋ฌธ์ ์ฝ๊ณ ๋ฆฌ๋ทฐํด๋ณด์๋ค. ์ ์ฒด ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๊ณ ์ถ์์ผ๋ ์ ์ฒด ๋ ผ๋ฌธ์ ๋ถ๋์ด ๋๋ฌด ๊ธธ์ด์ ๋ ผ๋ฌธ์์ ์ค์ํ๋ค๊ณ ์๊ฐ๋๋ ๋ถ๋ถ๊ณผ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ํฌ์คํธ๋ฅผ ์์ฑํ์๋ค. OpenAI์ CLIP ์๊ฐ ๋ธ๋ก๊ทธ๋ ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค. ์ ๊ทธ๋ผ ์ง๊ธ๋ถํฐ ํฌ์คํธ๋ฅผ ์์ํด๋ณด๋๋ก ํ๊ฒ ๋ค!! ๐ฅ
CLIP: text์ image๋ฅผ ์ฐ๊ฒฐํ๋ค
OpenAI์์๋ CLIP์ด๋ผ๋ ์๋ก์ด ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ฅผ ์๊ฐํ์๋ค. ์ด CLIP์ ์์ฐ์ด supervision์ผ๋ก๋ถํฐ visual concept๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ์๋ค. CLIP์ ๋จ์ํ ์ธ์ํ visual category์ ์ด๋ฆ์ ์ ๊ณตํ์ฌ GPT-2์ GPT-3์ฒ๋ผ 'zero-shot'์ผ๋ก ๋ชจ๋ visual classification ๋ฒค์น๋งํฌ์ ์ ์ฉํ ์ ์๋ค.
๋ฅ๋ฌ๋์ computer vision ๋ถ์ผ์์ ํ๋ช ์ ์ผ์ผ์ผฐ์ง๋ง, ํ์ฌ์ ๋ฐฉ์๋ค์ ๋ช ๊ฐ์ง ์ค์ํ ๋ฌธ์ ์ ๋ค์ ๊ฐ์ง๊ณ ์๋ค. ์ผ๋ฐ์ ์ธ vision dataset์ ์ข์ visual concept๋ฅผ ๊ฐ๋ฅด์น์ง๋ง, ๋ ธ๋์ ํ์๋ก ํ๊ณ ๋น์ฉ๋ ๋ง์ด ๋ ๋ค. ๊ธฐ์กด์ vision model์ ์ค์ง ํ ๊ฐ์ง task์ ๋ํด์๋ง ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ์๋ก์ด task์ ์ ์ฉํ๊ธฐ ์ํด์๋ ๋ง์ ๋ ธ๋ ฅ์ ํ์๋ก ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฒค์น๋งํฌ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ๋ stress test์์๋ ์ค๋ง์ค๋ฌ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ค์, ํ์ฌ computer vision์ ํ์ต ๋ฐฉ์์ ๋ํ ์ฐ๋ ค๋ฅผ ๋ถ๋ฌ์ผ์ผํค๊ณ ์๋ค.
๊ทธ๋์ ์ด๋ฌํ ์ฐ๋ ค๋ฅผ ํด๊ฒฐํ๊ณ ์ ์ ์ํ ๋ชจ๋ธ์ด ๋ฐ๋ก CLIP์ด๋ค. CLIP์ ์ธํฐ๋ท์ ์กด์ฌํ๋ ๋ค์ํ ์ข ๋ฅ์ ์ด๋ฏธ์ง์ ์์ฐ์ด๋ก ํ์ต๋์๋ค. ๋์์ธ ๊ตฌ์กฐ์ ์ํ๋ฉด, ๋คํธ์ํฌ๋ ์์ฐ์ด๋ก ๊ฐ๋ฅด์นจ์ ๋ฐ์์ ๋ค์ํ ๋ถ๋ฅ ๋ฒค์น๋งํฌ์ ๋ํด, ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ๋ํ ์ต์ ํ ์์ด๋ GPT-2์ GPT-3์ ' zero-shot'์ผ๋ก ์ํ์ด ๊ฐ๋ฅํ๋ค. ์ด๊ฒ์ด ์ค์ํ ๋ฐ๋ ์ ์ด๋ค. ๋ฒค์น๋งํฌ์ ๋ํด ์ง์ ์ ์ผ๋ก ์ต์ ํํ ๊ฒ์ด ์๋๋ผ, ์ด๊ฒ์ด ๋์ฑ ๋ํ์ฑ์ด ์๋ค๊ณ ์๊ฐํ๋ค. CLIP์ ์๋ณธ์ 1.28M ๋ ์ด๋ธ ์์ ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ImageNet zero-shot์์ ์๋ณธ ResNet-50์ ์ฑ๋ฅ์ ์ผ์น์ํค๋ฉด์ ์ด 'robustness gap'์ ๊ฒฉ์ฐจ๋ฅผ 75%๋ก ์ขํ๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ ImageNet ResNet-101๊ณผ CLIP ViT-L์ ์ฑ๋ฅ ๋น๊ต์ด๋ค.
Approach
๊ฐ๋จํ pre-training task๋ฅผ scalingํ๋ ๊ฒ์ผ๋ก๋ ๋ค์ํ ๋ถ์ผ์ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฐ์ดํฐ์ ์ ๋ํด ๊ฒฝ์๋ ฅ์๋ zero-shot performance๋ฅผ ์ป๊ธฐ์ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. CLIP์ ์ฌ์ฉ ๊ฐ๋ฅํ ํ๋ถํ supervision์ ์ฌ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์ธํฐ๋ท์์ ์ฐพ์ text์ image๊ฐ ์ง์ ์ด๋ฃจ๋ ๋ฐ์ดํฐ๋ค๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ด ๋ฐ์ดํฐ๋ CLIP์ ์ํ proxy training task๋ฅผ ์์ฑํ๋๋ฐ ์ฌ์ฉ๋๋ค. image๊ฐ ์ฃผ์ด์ง๋ฉด, 32,768๊ฐ์ ๋๋คํ๊ฒ ์ํ๋ง๋ text snippet์ค์์ ์ค์ ๋ก ์ด๋ฏธ์ง์ ์ง์ ์ด๋ฃจ๋ text๋ฅผ ์์ธกํด์ผ ํ๋ค.
์ด task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, CLIP์ ์ด๋ฏธ์ง์์ ๋ค์ํ ์ข ๋ฅ์ visual concept๋ฅผ ์ธ์ํ๋๋ก ํ์ตํด์ผ ํ๊ณ , ์ด visual concept๋ค์ ์ด๋ค์ ์ด๋ฆ๊ณผ ์ฐ๊ฒฐ ์ง์ ์ ์์ด์ผ ํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, CLIP model์ ์์์ ์ธ visual classification task์ ์ ์ฉ๋ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ๋ฐ์ดํฐ์ ์ task๊ฐ ๊ณ ์์ด์ ๊ฐ์์ง์ ์ฌ์ง์ ๋ถ๋ฅํด์ผ ํ๋ค๊ณ ํ ๋, ๊ฐ ์ด๋ฏธ์ง์ ๋ํด CLIP ๋ชจ๋ธ์ด '๊ณ ์์ด ์ฌ์ง' ๋๋ '๊ฐ์์ง ์ฌ์ง'์ด๋ผ๋ ํ ์คํธ ์ค๋ช ์ด ํด๋น ์ด๋ฏธ์ง์ ์ง์ ์ด๋ฃฐ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์์ง ์์ธกํด์ผ ํ๋ค.
๋ค์์ ๊ทธ๋ฆผ 2๋ CLIP์ ๊ตฌ์กฐ์ ๋ํ ๋๋ต์ ์ธ ๊ฐ์๋ฅผ ๋ณด์ฌ์ค๋ค.
1๊ฐ์ batch๋ $N$๊ฐ์ $($image, text$)$ ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๊ทธ๋ฌ๋ฉด, $N$๊ฐ์ ์์ ๋ชจ๋ $i, j$์ ๋ํด ๋น๊ตํ๋ฉด $N$๊ฐ์ positive pair์ $N^{2}-N$๊ฐ์ negative pair์ ์ป์ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ ํตํด CLIP์ multi-model embedding spave๋ฅผ ํ์ตํ๊ฒ ๋๋ค.
- image์ text๋ฅผ ํ๋์ ๊ณตํต๋ sapce๋ก ๋ณด๋
- positive pair์์ cosine similarity๋ ์ต๋ํ ๐บ
- negative pair์์ cosine similarity๋ ์ต์ํ ๐ป
- Cross Entropy์ ์ฌ์ฉํ์ฌ ํ์ต
๋ ผ๋ฌธ์์๋ ์ดํด๋ฅผ ๋๊ธฐ ์ํด ๋ค์์ ์ฝ๋๋ฅผ ์ ๊ณตํด์ฃผ์๋ค. ํ ๋ฒ ์ฐฌ์ฐฌํ ์ดํด๋ณด๊ธธ ๋ฐ๋๋ค.
CLIP์ ๊ธฐ์กด์ computer vision์ ๋ํ ๋ฅ๋ฌ๋ ๋ฐฉ์๋ค์ ๋ช ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ์ ๋ค์ ์ํ์ํค๊ธฐ ์ํด ๋์์ธ๋์๋ค.
๋น์ฉ์ด ๋ง์ด ๋๋ ๋ฐ์ดํฐ์ ๐ธ
๋ฅ๋ฌ๋์ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๊ณ , vision model์ ํต์์ ์ผ๋ก ๋น์ฉ๋ ๋ง์ด ๋ค๊ณ ํ์ ๋ ์์ visual concept์ ๋ํด์ supervision์ ์ ๊ณตํ๋ ์๋์ผ๋ก ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ์ ์์ ํ์ต๋๋ค. ImageNet ๋ฐ์ดํฐ์ ์ ์ด๋ฌํ ๊ณต๊ฐ์์ ํ๋์ ์ปค๋ค๋ ๋ ธ๋ ฅ์ด์๋ค. ์๋ํ๋ฉด 25,000๋ช ์ด ๋๋ ์์ ์๋ค์ด 22,000๊ฐ์ object category์์ 1,400๋ง ๊ฐ์ ์ด๋ฏธ์ง์ ๋ํด ๋ผ๋ฒจ๋ง์ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด์๋ ๋ฐ๋๋ก, CLIP์ ์ธํฐ๋ท์์ ์์ฝ๊ฒ ๊ตฌํ ์ ์๋ text - image ์์ผ๋ก ํ์ต๋์๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง ๋ฐ์ดํฐ์ ์ ์ฝ 4์ต๊ฐ์ $($image, text$)$์์ผ๋ก ์ด๋ฃจ์ด์ง WebImageText$($WIT$)$ ๋ฐ์ดํฐ์ ์ด๋ค.
์ ํ๋ ๋ฅ๋ ฅ โ ๏ธ
ImageNet ๋ชจ๋ธ์ 1,000๊ฐ์ ImageNet ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์ ์์ธกํ์ง๋ง, ์ด ๋ฒ์ฃผ์์ ๋ฒ์ด๋ ๊ฒ๋ค์ ๋ํด์๋ ๋ง์งฑ ๋๋ฃจ๋ฌต์ด์๋ค. ๋๋ค๋ฅธ task์ ๋ํด ์ํํ๊ฒ ํ๋ ค๋ฉด, ML practitioner๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ๋ง๋ค์ด์, output head์ ์ถ๊ฐํ๊ณ , ๋ชจ๋ธ์ fine-tuneํด์ผ ํ๋ค. ์ด์๋ ๋ฐ๋๋ก, CLIP์ ๋ค์ํ ์ข ๋ฅ์ visual classification task์ ๋ํด ์ถ๊ฐ์ ์ธ training example ์์ด ์ํํ ์ ์๋ค. CLIP์ ์๋ก์ด task์ ์ ์ฉํ๊ธฐ ์ํด์ ํ์ํ ๋ชจ๋ ๊ฒ์, ๊ทธ์ CLIP์ text encoder์ task์ visual concept ์ด๋ฆ์ ์๋ ค์ฃผ๋ฉด, CLIP์ CLIP์ visual representation์ ์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ถ๋ ฅํ ๊ฒ์ด๋ค. ์ด๋ฌํ ๋ถ๋ฅ๊ธฐ์ ์ ํ๋๋ ์์ ํ๊ฒ ์ง๋ ํ์ต๋ model๊ณผ ๊ฒฝ์ํ ์ ์์ ๋งํผ ๋๋ค.
๋ค์์ ๋ค์ํ ๋ฐ์ดํฐ์ ์์์ example์ ๋ํ zero-shot CLIP ๋ถ๋ฅ๊ธฐ์ ์์ธก๋ค์ด๋ค.
๋จ์ด์ง๋ real-world performance ๐ป
๋ฅ๋ฌ๋ ์์คํ ์ ์ข ์ข vision ๋ฒค์น๋งํฌ์์ ์ฌ๋ ์์ค์ด๋ ์ฌ๋์ ์ด์ํ๋ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ์ง๋ง, ์ค์ธ๊ณ์ ์ ์ฉํ์ ๋๋ ์์ง ๋ฒค์น๋งํฌ์์ ๋ณด์ฌ์คฌ๋ ๊ฒ๊ณผ๋ ๊ฑฐ๋ฆฌ๊ฐ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ ๋ง๋๋ก, 'benchmark performance'์ 'real performance'์๋ ์ฐจ์ด๊ฐ ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ ์ด์ ๋ ๋ชจ๋ธ์ด ์ค์ง ๋ฒค์น๋งํฌ์ ๋ํ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ํ์์ด ์ํ์ ํต๊ณผํ๊ธฐ ์ํด ์ง๋ ์ํ์ ๊ธฐ์ถ๋ฌธ์ ๋ฅผ ๊ณต๋ถํ๋ ๊ฒ์ฒ๋ผ '๋ถ์ ํ์'๋ฅผ ํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ๋ค. ์ด์๋ ๋ฐ๋๋ก, CLIP model์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ง ์๊ณ ๋ ๋ฒค์น๋งํฌ์์ ํ๊ฐํ ์ ์๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ๋ฐฉ์์ผ๋ก '๋ถ์ ํ์'๋ฅผ ํ ์๊ฐ ์๋ค. ์ด๊ฒ์ผ๋ก CLIP์ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ด ์ค์ธ๊ณ์์๋ ๋น์ทํ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. '๋ถ์ ํ์ ๊ฐ์ค'์ ์ฆ๋ช ํ๊ธฐ ์ํด, CLIP์ด ImageNet์ ๋ํด ํ์ตํ ์ ์์ ๋, CLIP์ ์ฑ๋ฅ ๋ณํ๋ ์ธก์ ํ์๋ค. CLIP์ feature ์์ ์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฅ์ฐฉํ๋ฉด ImageNet ํ ์คํธ์ ์์ CLIP์ ์ ํ๋๊ฐ ๊ฑฐ์ 10% ํฅ์๋๋ค. ํ์ง๋ง, ์ด ๋ถ๋ฅ๊ธฐ๋ ํ๊ท ์ ์ผ๋ก 7๊ฐ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ๋ํด robust performance๋ฅผ ํ๊ฐํ ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง ๋ชป ํ๋ค.
ํต์ฌ ์์ฝ
1. CLIP์ ๋งค์ฐ ํจ์จ์ ์ โ
CLIP์ ํํฐ๋ง๋์ง ์์ ๋งค์ฐ ๋ค์ํ๊ณ ์ก์์ด ๋ง์ ๋ฐ์ดํฐ์์ ํ์ตํ์ฌ zero-shot ๋ฐฉ์์ผ๋ก ์ฌ์ฉํ๋๋ก ๋์ด ์๋ค. GPT-2์ GPT-3์ ๊ฐ์ด ์ด๋ฐ ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ๋ ฅํ zero-shot performance๋ฅผ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์๋นํ ํ์ต ๋น์ฉ์ ํ์๋ก ํ๋ค. ํ์ํ ์ปดํจํ ์ ์ค์ด๊ธฐ ์ํด, CLIP์ ํ์ต ๋ฐฉ์์ ํ์ต ํจ์จ์ฑ์ ํฅ์์ํค๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ฐฉ๋ฒ์ ์ง์คํ์๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๋ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ์ ํ์ด ์๋นํ ๊ณ์ฐ ๋น์ฉ์ ์๋ผ๋ ๊ฒ์ ์์๋๋ค. ์ฒซ ๋ฒ์งธ ์ ํ์ text์ image๋ฅผ ์ฐ๊ฒฐํ๊ธฐ ์ํ contrastive objective์ ์ฑํ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์๋ VirTex์ ์ ์ฌํ image-to-text ๋ฐฉ์์ ์กฐ์ฌํ์์ง๋ง, ์ด๋ฅผ ์ด์ฉํ์ฌ SOTA๋ฅผ ๋ฌ์ฑํ๋๋ฐ ์ด๋ ค์์ ๊ฒช์๋ค. ์ค์ ๊ท๋ชจ์ ์คํ์์ ์ฐ๋ฆฌ๋ CLIP์์ ์ฌ์ฉํ๋ contrastive objective๊ฐ zero-shot ImageNet ๋ถ๋ฅ์์ 4๋ฐฐ์์ 10๋ฐฐ ๋ ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๋ ๋ฒ์งธ ์ ํ์ Vision Transformer์ ์ ์ฉํ๋ ๊ฒ์ด์๋๋ฐ, ์ด๋ ๊ธฐ์กด์ ResNet๋ณด๋ค 3๋ฐฐ ๋ ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์ ์ด์๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ธ CLIP ๋ชจ๋ธ์ ํ์กดํ๋ large scal image model๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
2. CLIP์ ์ ์ฐํ๊ณ ์ผ๋ฐ์ ๐
CLIP์ ์์ฐ์ด๋ก๋ถํฐ ์ง์ ๋ค์ํ ์ข ๋ฅ์ visual concept๋ฅผ ํ์ตํ๊ธฐ ๋๋ฌธ์, ๋ค๋ฅธ ImageNet model๋ค๋ณด๋ค ์ ์ฐํ๊ณ ์ผ๋ฐ์ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ CLIP์ ์๋ก ๋ค๋ฅธ ๋ง์ task์ ๋ํด์ zero-shot์ ์ํํ ์ ์๋ค๋ ๊ฒ์ ์์๋๋ค. ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด 30๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ๋ํด์ zero-shot performance๋ฅผ ์ธก์ ํ์๋ค. ํนํ, OCR์ ํ์ตํ๋ ๊ฒ์ ๊ธฐ์กด์ ImageNet model์์ ๋ฐ์ํ์ง ์๋ ํฅ๋ฏธ๋ก์ด ํน์ฑ์ด๋ค. ์์์ ๊ฐ๊ฐ์ zero-shot ๋ถ๋ฅ๊ธฐ๋ก๋ถํฐ ๋๋คํ non-cherry picked ์์ธก์ ์๊ฐํํ์๋ค.
์ด๋ฌํ ๋ฐ๊ฒฌ์ ๊ธฐ์กด์ linear probes๋ฅผ ์ฌ์ฉํ representation learning ํ๊ฐ์์ ๋ํ ๋ํ๋์๋ค. ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ CLIP model์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ImageNet model์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ์๋ค.
ํ๊ณ
CLIP์ ๋ณดํต ์ผ๋ฐ์ ์ธ ์ฌ๋ฌผ์ ์ ์ธ์ํ์ง๋ง, ์ฌ๋ฌผ์ ๊ฐ์๋ฅผ ์ธ๋ ๊ฒ๊ณผ ๊ฐ์ ์ถ์์ ์ด๊ฑฐ๋ ์ฒด๊ณ์ ์ธ task์ ์ฌ์ง์์ ์๋์ฐจ๊ฐ ์ผ๋ง๋ ๊ฐ๊น๊ฒ ์๋์ง๋ฅผ ์์ธกํ๋ ๋์ฑ ๋ณต์กํ task์ ๋ํด์ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์ด๋ฌํ ๋ ๊ฐ์ ๋ฐ์ดํฐ์ ์์ zero-shot CLIP์ ๊ณ ์ random guessing๋ณด๋ค ์ด์ง ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. Zero-shot CLIP์ fine-grained classification์ ๋ํด task specificํ ๋ชจ๋ธ์ ๋นํด ์ด๋ ค์์ ๊ฒช์๋ค.
CLIP์ pre-training dataset์ผ๋ก ์ปค๋ฒ๋์ง ์์ ์ด๋ฏธ์ง์ ๋ํด ์ข์ง ์์ ์ผ๋ฐํ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์๋ฅผ ๋ค์ด, CLIP์ ๊ฐ๋ฅํ OCR ์์คํ ์ ํ์ตํ์ง๋ง MNIST ๋ฐ์ดํฐ์ ์์ ์์ผ๋ก ์ด ์ซ์๋ก ํ๊ฐํ ๋ zero-shot CLIP์ ๋ฐ์ดํฐ์ ์์ ์ธ๊ฐ์ 99.75%๋ณด๋ค ํจ์ฌ ๋ฎ์ 88% ์ ํ๋๋ง ๋ฌ์ฑํ๋ค. ๋ง์ง๋ง์ผ๋ก, CLIP์ zero-shot ๋ถ๋ฅ๊ธฐ๋ wording๊ณผ phrasing์ ๋ฏผ๊ฐํ๊ณ , ๊ฐ๋์ ์ ์ํํ๊ธฐ ์ํด 'prompt engineering'์ ์ํ์ฐฉ์ค๋ฅผ ํ์๋ก ํ๋ค.
๊ฒฐ๋ก
CLIP๊ณผ ํจ๊ป ์ต๊ทผ์ NLP ๋ถ์ผ์์ ํฐ ๋ฐ์ ์ ์ด๋ฃฌ, ์ธํฐ๋ท ๊ท๋ชจ์ ์์ฐ์ด์ ๋ํ ์์ ์ ๊ตฌ์ ๋ฐ์ง ์๋ pre-training์ ํ์ฉํ์ฌ ๋ค๋ฅธ ๋ถ์ผ์ ๋ฅ๋ฌ๋ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋์ง ์ฌ๋ถ๋ฅผ ํ ์คํธํ๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ computer vision์ ์ ์ฉํ ์ ์๋ค๋ ๊ฒฐ๊ณผ์ ๋งค์ฐ ํฅ๋ฏธ๋ก์ ๋ค. GPT ๊ณ์ด๊ณผ ๋น์ทํ๊ฒ, CLIP์ zero-shot transfer์ ํตํด ์์ฐํ๋ pre-training ๋์ค์ ๋ค์ํ ์ข ๋ฅ์ task๋ฅผ ํ์ตํ๋ค. ๊ทธ๋ฆฌ๊ณ zero-shot ํ๊ฐ๊ฐ model์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋์ฑ ๋ํ์ ์ธ ์์น๋ผ๋ ๊ฒ์ ์์๋ด์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2103.00020
Learning Transferable Visual Models From Natural Language Supervision
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co
arxiv.org
https://openai.com/research/clip
CLIP: Connecting text and images
We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized,
openai.com