Paper Reading ๐/multimodal models
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ๊ฐ ๋ชจ๋ธ์ pre-training ์ฅ์ ์ ์ ์งํ๋ฉฐ ์ด๋ฏธ์ง์ ํ
์คํธ ๋ชจ๋ธ์ ์ ๋ ฌํ๊ธฐ ์ํ contrastive training์ ์ฌ์ฉํ๋ ๊ฐ๋จํ method๋ฅผ ์ ์ํ์๋ค. ๋
ผ๋ฌธ์ ์คํ์ ๋ฐ๋ฅด๋ฉด locked pre-trained image model & unlocked text model์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ฌํ contrastive-tuning์ 'Locked-image Tuning' (LiT)๋ผ๊ณ ๋ถ๋ฅธ๋ค. LiT๋ ์๋ก์ด task์ ๋ํด pre-trained image model๋ก๋ถํฐ ์ข์ representation์ ์ฝ์ด๋ด๊ธฐ ์ํ text model๋ง์ ๊ฐ๋ฅด์น๋ค. LiT ๋ชจ๋ธ์ ์๋ก์ด vision task์ ๋ํด์ zero-s..
Paper Reading ๐/multimodal models
๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ์์ํ๊ธฐ ์ ์ ์ด๋ฒ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ full paper๋ฅผ ์ฝ๊ณ ์์ฑํ๋ ๋ฆฌ๋ทฐ๊ฐ ์๋๋ผ๋ ์ ๊ฐ์ํ๊ธธ ๋ฐ๋๋ค. ์๋๋ full paper๋ฅผ ์ฝ์ด๋ณด๋ ค๊ณ ํ์์ผ๋, ์ด ๋
ผ๋ฌธ์์ ์๊ฐํ๊ณ ์ ํ๋ ๊ฒ์ด ๋ฑํ ์๋ก์ด ๊ธฐ์ ์ ์๊ฐ๊ฐ ์๋ ๋ ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋๋ค๊ณ ์๊ฐํ์ฌ Microsoft Blog๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค. The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ vision language(VL) task์ ๋ํ visual representation์ ํฅ์์ํค๋ ๋ํ
์ผํ ์ฐ๊ตฌ๋ฅผ ์งํํ๊ณ ์ด๋ฏธ์ง์์ object ์ค์ฌ์ representation์ ์ ๊ณตํ๊ธฐ ์ํ ๊ฐ์ ๋ object detection model์ ๊ฐ๋ฐํ์๋ค. ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ๋
ผ๋ฌธ์์..
Paper Reading ๐/multimodal models
The overview of this paper ๋ค์ํ SoTA vision & vision-and-language ๋ชจ๋ธ๋ค์ ๋ค์ํ downstream task์์ ์ข์ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ๋๊ท๋ชจ์ vision-linguistic pre-training์ ์์กดํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก cross-model(contrastive) ์ด๊ฑฐ๋ multi-modal(earlier fusion)์ด๋ค. ๋ ๋ค ์๋๋ผ๋ฉด specific modality ๋๋ task๋ฅผ ํ๊น์ผ๋ก ํ๋ค. ์์ผ๋ก ๋์๊ฐ์ผ ํ ๋ฐฉํฅ์ ๋ชจ๋ modality๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ ํ๋์ universal model์ธ 'ํ ๋(foundation)'๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ชจ๋ธ์ธ FLAVA๋ฅผ ์๊ฐํ๊ณ 35๊ฐ์ task์์ ์ด ๋ชจ..
Paper Reading ๐/multimodal models
The overview of this paper ๋
ผ๋ฌธ์์๋ modular Transformer๋ฅผ ์ฌ์ฉํด์ dual encoder์ fusion encoder๋ฅผ ๊ณต๋์ผ๋ก ํ์ตํ๋ ํตํฉ Vision-Language pretrained Model(VLMO)๋ฅผ ์๊ฐํ์๋ค. ํนํ ๋
ผ๋ฌธ์์๋ Mixture-of-Modality-Experts(MoME) Transformer๋ฅผ ์๊ฐํ์๋๋ฐ, ์ด๊ฒ์ ๊ฐ ๋ธ๋ก์ modality-specific ํ ์ ๋ฌธ๊ฐ์ ๊ณต์ ๋ self-attention layer๋ฅผ ๊ฐ์ง๋ค. MoME์ ๋ชจ๋ธ๋ง ์ ์ฐ์ฑ ๋๋ถ์, pretrained VLMo๋ vision-language ๋ถ๋ฅ task๋ฅผ ์ํด fusion encoder๋ก fine-tune ๋ ์๋ ์๊ณ , ํจ์จ์ ์ธ image-text retr..
Paper Reading ๐/multimodal models
The overview of this paper ๊ธฐ์กด์ Vision-Language Pre-training(VLP)๋ ๋ง์ multi-modal downstream task์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ๊ฐ๋น์ผ annotation์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ scalability๋ฅผ ์ ํํ๊ณ , ๋ค์ํ dataset-specific objective์ ์๊ฐ๋ก pre-training ํ๋ก์์ ๋ฅผ ๋ณต์กํ๊ฒ ๋ง๋ ๋ค. ์ด ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ์ฝ์ ์ํํ๊ณ ์ต์ํ์ pre-training ํ๋ ์์ํฌSimple Visual Language Model(SimVLM)๋ฅผ ์๊ฐํ์๋ค. SimVLM์ ๋ค์๊ณผ ๊ฐ์ ์ด์ ์ ๊ฐ์ง๋ค. ๋๊ท๋ชจ์ weak supervision์ ์ฌ์ฉํจ์ผ๋ก์จ ํ์ต ๋ณต์ก๋๋ฅผ ๋ฎ์ถค ํ๋์ prefic languag..
Paper Reading ๐/multimodal models
The overview of this paper ๋๋ถ๋ถ์ Vision-Language Pre-training(VLP)๋ ๋ค์ํ vision-language task์์ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, ๋๋ถ๋ถ์ odel๋ค์ understanding ๊ธฐ๋ฐ ์ด๊ฑฐ๋ generation ๊ธฐ๋ฐ ๋ ์ค์ ํ๋์์ ์๋ํ๋ค. ๊ฒ๋ค๊ฐ, ์ฑ๋ฅ ํฅ์์ ๋๋ถ๋ถ ์น์์ ์์ง๋ noisy image-text ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ์
์ ๊ท๋ชจ๋ฅผ ๋๋ฆผ์ผ๋ก์จ ์ป์ด์ง๊ฒ ๋๋๋ฐ, ์ด๊ฒ์ ์ฐจ์ ์ supervision์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ vision-language understanding & generation์ ์ ๋์ ์ผ๋ก ์ ๋ฌํ๋ ์๋ก์ด VLP ํ๋ ์์ํฌ์ธ BLIP์ ์๊ฐํ์๋ค. BLIP์ ์บก์
์ bootstrapping ํจ์ผ๋ก์จ noisy web..
Paper Reading ๐/multimodal models
The overview of this paper ๋๋ถ๋ถ์ vision & language representation ํ์ต์๋ visual token๊ณผ word token์ ๊ณต๋์ผ๋ก ๋ชจ๋ธ๋งํ๊ธฐ ์ํด transformer ๊ธฐ๋ฐ multi-modal encoder๊ฐ ์ฌ์ฉ๋๊ณ ์๋ค. ์๋ํ๋ฉด visual ํ ํฐ๊ณผ word ํ ํฐ์ด ์ ๋ ฌ๋์ด ์์ง ์์ผ๋ฉด, multi-modal model์ด image-text ์ํธ์์ฉ์ ํ์ตํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ ALign the image & text representations BEfore Fusing(ALBEF) ํ๊ธฐ ์ํด ๋์ฑ gorunded vision & language ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ cross-modal attention์ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ contra..
Paper Reading ๐/multimodal models
The overview of this paper visual & vision-language representation์ ์ ๋ฌธ์ ์ธ ํ์ต ๋ฐ์ดํฐ์
์ ์ฌํ๊ฒ ์์กดํ๊ณ ์๋ค. vision ์์ฉ์ ์ํด์, representation์ ImageNet ๋๋ OpenImages์ ๊ฐ์ ๋ถ๋ช
ํ ํด๋์ค ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ ํ์ต๋์๋ค. ๊ทธ๋์ ๊ธฐ์กด์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์
์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ ๋ง์ ๋น์ฉ์ด ๋ค๊ธฐ ๋๋ฌธ์, ๋ฐ์ดํฐ์
์ ํฌ๊ธฐ๊ฐ ์ ํ๋๊ณ , ํ์ต ๋ชจ๋ธ์ scaling์ ๋ฐฉํดํ๋ค. ์ด ๋
ผ๋ฌธ์์๋ ์ฝ 10์ต ๊ฐ์ ์ก์์ด ์์ฌ ์๋ image alt-text ๋ฐ์ดํฐ์
์ Conceptual Captions ๋ฐ์ดํฐ์
์์ ์ฌ์ฉ๋๋ ๋น์ฉ์ด ๋น์ผ filtering ๋๋ ํ์ฒ๋ฆฌ ์์
์ ์ฌ์ฉํ์ง ์๊ณ ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํ์๋ค...
Paper Reading ๐/multimodal models
The overview of this paper ์ฌ๋ฌ vision-and-language task์์ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ VLP๋ region supervision(object detection)๊ณผ convolutional architecture(ResNet)์ ์๋นํ ์์กดํ์ฌ ์ด๋ฏธ์ง์์ feature๋ฅผ ์ถ์ถํ๋ค. ์ด๋ฌํ ์ ์ด ํจ์จ์ฑ/์๋์ ํํ๋ ฅ ์ธก๋ฉด์์ ๋ฌธ์ ๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ํจ์จ์ฑ/์๋: ์
๋ ฅ feature ์ถ์ถ์ด multi-modal ์ํธ์์ฉ๋ณด๋ค ๋ ๋ง์ ๊ณ์ฐ๋์ ํ์๋ก ํจ. ํํ๋ ฅ: ์๊ฐ์ ์๋ฒ ๋์ ํํ๋ ฅ๊ณผ ๋ฏธ๋ฆฌ ์ ์๋ ์๊ฐ์ vocabulary์ ๋ํ ์ํ์ด ์๊ธฐ ๋๋ฌธ. ์ด ๋
ผ๋ฌธ์์๋ ์์ ๊ท๋ชจ์ VLP model์ธ Vision-and-Language Transformer(ViLT)๋ฅผ ..
Paper Reading ๐/multimodal models
The overview of this paper image-text ์์์ cross-modal representation ํ์ต์ ๋๊ท๋ชจ pre-training method๋ vision-language task์์ ์ ๋ช
ํด์ก๋ค. ํ์ง๋ง ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ ๊ทธ์ image region feature์ text feature์ ์ฐ๊ฒฐํ๊ธฐ๋ง ํ ๋ฟ, ๋ค๋ฅธ ์กฐ์น๋ฅผ ์ทจํ์ง ์์๋ค. ๊ทธ๋์ ์ด ๋
ผ๋ฌธ์์๋ ์ด๋ฏธ์ง์์ ๊ฐ์ง๋ object tag๋ฅผ anchor point๋ก ์ฌ์ฉํ๋ ์๋ก์ด ํ์ต ๋ฐฉ๋ฒ์ธ Oscar์ ์๊ฐํ์๋ค. ์ด๋ก ์ธํด ์ ๋ ฌ์ ํ์ต์ ๋์ฑ ์ฝ๊ฒ ํด ์ฃผ์๋ค. ์ด method๋ object detector๋ก๋ถํฐ ๊ฐ์ฅ ์ค์ํ object๊ฐ ๊ฐ์ง๋ ํ
๊ณ , paired text์์ ์ด object ์ข
์ข
์ธ๊ธ๋ ๊ฒ์ด๋ผ๋..
'Paper Reading ๐/multimodal models' ์นดํ
๊ณ ๋ฆฌ์ ๊ธ ๋ชฉ๋ก
๋จ์ถํค
๋ด ๋ธ๋ก๊ทธ
๋ด ๋ธ๋ก๊ทธ - ๊ด๋ฆฌ์ ํ ์ ํ |
Q
Q
|
์ ๊ธ ์ฐ๊ธฐ |
W
W
|
๋ธ๋ก๊ทธ ๊ฒ์๊ธ
๊ธ ์์ (๊ถํ ์๋ ๊ฒฝ์ฐ) |
E
E
|
๋๊ธ ์์ญ์ผ๋ก ์ด๋ |
C
C
|
๋ชจ๋ ์์ญ
์ด ํ์ด์ง์ URL ๋ณต์ฌ |
S
S
|
๋งจ ์๋ก ์ด๋ |
T
T
|
ํฐ์คํ ๋ฆฌ ํ ์ด๋ |
H
H
|
๋จ์ถํค ์๋ด |
Shift + /
โง + /
|
* ๋จ์ถํค๋ ํ๊ธ/์๋ฌธ ๋์๋ฌธ์๋ก ์ด์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํฐ์คํ ๋ฆฌ ๊ธฐ๋ณธ ๋๋ฉ์ธ์์๋ง ๋์ํฉ๋๋ค.