Paper Reading ๐/multimodal models
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ํตํฉ๋ Vision-Language Pre-training(VLP) model์ ์ ์ํ์๋ค. ๋ชจ๋ธ์ ๋ค์์ ๋ ๊ฐ์ง๋ฅผ ํตํฉํ์๋ค. ์ด๋ก ์ธํด VLP๋ encoder์ decoder๋ฅผ ์๋ก ๋ค๋ฅธ ๊ฐ๊ธฐ์ ๋ชจ๋ธ๋ก ๊ตฌํํ method๋ค๊ณผ ๋ค๋ฅธ ์ ์ ๊ฐ์ง๊ฒ ๋์๋ค. visual-language ์ดํด ๋๋ ์์ฑ์ ์ํด fine-tune encoding & decoding์ ์ํด ๊ณต์ ๋ multi-layer transformer๋ฅผ ์ฌ์ฉ ํตํฉ VLP model์ 2๊ฐ์ task์ ๋ํ unsupervised learning ๋ชฉํ๋ฅผ ์ฌ์ฉํด์ ๊ฑฐ๋ํ ์์ image-text ์ง์์ pre-train ๋์๋ค: bi-directional & sequence-to-..
Paper Reading ๐/multimodal models
The overview of this paper ๋
ผ๋ฌธ์์๋ Visual-Linguistic BERT(VL-BERT)๋ผ ๋ถ๋ฆฌ๋ visual-linguistic task๋ฅผ ์ํ ์๋ก์ด pre-train ๊ฐ๋ฅํ ํฌ๊ด์ ์ธ representation์ ์๊ฐํ์๋ค. VL-BERT๋ ๊ฐ๋จํ์ง๋ง ๊ฐ๋ ฅํ Transformer model์ backbone์ผ๋ก ์ฌ์ฉํ์ฌ ์๊ฐ์ ๋ฐ ์ธ์ด์ embedded feature์ ์
๋ ฅ์ผ๋ก ๋ฐ์์ ํ์ฅํ๋ ๋ชจ๋ธ์ ์ฑํํ์๋ค. ์
๋ ฅ๊ฐ์ segment๋ก๋ถํฐ ๋์จ word์ input ์ด๋ฏธ์ง๋ก๋ถํฐ ๋์จ RoI feature์ด๋ค. VL-BERT๋ ๋์ฑ ํฌ๊ด์ ์ธ representation์ ์ฌ์ฉํ๊ธฐ ์ํด ๋๊ท๋ชจ์ Conceptual Captions ๋ฐ์ดํฐ์
๊ณผ text-only corpus..
Paper Reading ๐/multimodal models
The overview of this paper vision-and-language ์ถ๋ก ์ ์๊ฐ์ ๊ฐ๋
๊ณผ ์ธ์ด์ ์๋ฏธ์ ๋ํ ์ดํด๋ฅผ ํ์๋ก ํ๊ณ , ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ์ด ๋ modality ๊ฐ์ ์ ๋ ฌ์ ํ์๋ก ํ๋ค. ๋ฐ๋ผ์ ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ vision-and-language ์ฐ๊ฒฐ์ฑ์ ํ์ตํ๊ธฐ ์ํด LXMERT(Learning Cross-Modality Encoder Representation from Transforer)๋ฅผ ์ ์ํ์๋ค. LXMERT๋ 3๊ฐ์ ์ธ์ฝ๋๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ์ Transformer model์ ์ฌ์ฉํ๊ณ , vision๊ณผ language semantic์ ์ฐ๊ฒฐํ๊ธฐ ์ํด 5๊ฐ์ ๋ค์ํ representative pre-training task๋ฅผ ์ฌ์ฉํ์๋ค. ์ด task๋ค์ intr..
Paper Reading ๐/multimodal models
The overview of this paper ๋
ผ๋ฌธ์์๋ image์ language์ task-agnostic joint representation์ ํ์ตํ๊ธฐ ์ํ ๋ชจ๋ธ์ธ ViLBERT๋ฅผ ์ ์ํ์๋ค. ์ด ๋ชจ๋ธ์ NLP ๋ถ์ผ์์ ์ ๋ช
ํ BERT architecture๋ฅผ multi-modal two-stream model๋ก ํ์ฅํ ๋ชจ๋ธ์ด๋ค. ์ด๋ก ์ธํด ViLBERT๋ co-attentional transformer๋ฅผ ํตํด ์ํธ์์ฉํ๋ ๊ฐ๋ณ์ stream์์ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์
๋ ฅ์ ํจ๊ป ์ฒ๋ฆฌํ๋ค. ๋
ผ๋ฌธ์์๋ ViLBERT๋ฅผ ๊ธฐ์กด์ base architecture์ ์ฌ์ํ ์ถ๊ฐ๋ง์ ํ๊ณ ๋ ๊ฐ์ proxy task๋ฅผ ์๋์ผ๋ก ์์ง๋ ๊ฑฐ๋ํ Conceptual Captions ๋ฐ์ดํฐ์
์ ํตํด pre-trai..
Paper Reading ๐/multimodal models
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ๊ด๋ฒ์ํ vision-language task๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํ ๊ฐ๋จํ๊ณ ์ ์ฐํ ํ๋ ์์ํฌ์ธ VisualBERT๋ฅผ ์ ์ํ์๋ค. VisualBERT๋ self-attention์ ์ฌ์ฉํ์ฌ ์
๋ ฅ ํ
์คํธ์ ์์ญ์ ์์๋ค์ ์ฐ๊ด๋ ์
๋ ฅ ์ด๋ฏธ์ง๋ก ์ ๋ ฌํ๋ Transformer layer์ ์คํ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ๋
ผ๋ฌธ์์๋ VisualBERT๋ฅผ image caption ๋ฐ์ดํฐ์์ pre-training ์ํค๊ธฐ ์ํด ์ถ๊ฐ์ ์ผ๋ก ๋ ๊ฐ์ visually-grounded language model ๋ชฉํ๋ฅผ ์ ์ํ์๋ค. VQA, VCR, NLVR, Flickr30K ์ด๋ ๊ฒ 4๊ฐ์ vision-language task์ ์งํํ ์คํ์ VisualBERT๊ฐ ๊ฐ๋จํ..
Paper Reading ๐/multimodal models
์์ฆ ๋ค์ด์๋ ํ ๊ฐ์ง ๊ธฐ์ ๋ก๋ ์ฑ๊ณตํ ์ ์๋ ์๋๋ผ๊ณ ํ๋ค. ํ ๋ง๋๋ก '์ตํฉ'์ด ํ์๊ฐ ์๋ ํ์๊ฐ ๋์ด๊ฐ๊ณ ์๋ ์ธ์์ด๋ค. ์ด๋ฒ์ OpenAI์์ ๊ณต๊ฐํ GPT-4๋ ์ด์ ์ GPT ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ ์ฒ๋ฆฌํ ์ ์๋ multimodal ์ฑ์ ๋ณด์ฌ์คฌ๋ค. ์ค๋ก ์์ฒญ๋ ๋ฐ์ ์ด๋ผ๊ณ ํ ์ ์๋๋ฐ, ์ด๋ฒ ํฌ์คํธ์์๋ multimodal model์ ํ ์ข
๋ฅ์ธ Vision-Language Model(VLM)์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ๋ค! ์ด ํฌ์คํธ๋ HuggingFace์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค. HuggingFace Blog: https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-..
Paper Reading ๐/multimodal models
์ผ๋ง ์ ์ ๋ธ๋ก๊ทธ์ ๊ตฌ๊ธ์์ ์๊ฐํ PaLM์ ๋ํ ๋ฆฌ๋ทฐ ํฌ์คํธ๋ฅผ ์ฌ๋ ธ๋ ๊ธฐ์ต์ด ๋๋ค. ์์ฒญ๋ ์์ ํ๋ผ๋ฏธํฐ ์๋ก ์ธํด ๊น์ง ๋๋๋ ๊ธฐ์ต์ด ๋๋๋ฐ, ์ด์ ๋ ์ด PaLM์ด ๋์ฑ multimodal ์ค๋ฌ์์ก๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด์ ํ
์คํธ๋ฅผ ๋์ด์ ์ด๋ฏธ์ง๊น์ง๋ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ด ๋์ด๋ฒ๋ฆฐ PaLM-'E'์ ๋ํด์ ์์๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ณธ ํฌ์คํธ๋ ๋
ผ๋ฌธ๊ณผ ๊ตฌ๊ธ์ ์๊ฐ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค. The overview of PaLM-E ์ต๊ทผ ๋ช ๋
๋์ ๋จธ์ ๋ฌ๋์์๋ ์์ฒญ๋ ๋ฐ์ ์ ์ด๋ฃฉํ์๋ค. ์ด๋ ๊ฒ ๋ฐ์ ๋ ๋ชจ๋ธ๋ค์ ์กฐํฌ๋ฅผ ์ค๋ช
ํ๊ฑฐ๋ ์๊ฐ์ ์ง๋ฌธ์ ์๋ตํ๋ ๋ฑ์ ๋ค์ํ ์ธ์ด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ๋์๋ค. ์ฌ์ง์ด๋ ํ
์คํธ ์ค๋ช
์ด ์ฃผ์ด์ง๋ฉด ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ด๊ธฐ๋ ํ๋ค! ๐ฒ ์ด๋ฌํ ํ์ ์ ํฐ ๋ฐ์ดํฐ์
์ ์ฌ..
'Paper Reading ๐/multimodal models' ์นดํ
๊ณ ๋ฆฌ์ ๊ธ ๋ชฉ๋ก (2 Page)
๋จ์ถํค
๋ด ๋ธ๋ก๊ทธ
๋ด ๋ธ๋ก๊ทธ - ๊ด๋ฆฌ์ ํ ์ ํ |
Q
Q
|
์ ๊ธ ์ฐ๊ธฐ |
W
W
|
๋ธ๋ก๊ทธ ๊ฒ์๊ธ
๊ธ ์์ (๊ถํ ์๋ ๊ฒฝ์ฐ) |
E
E
|
๋๊ธ ์์ญ์ผ๋ก ์ด๋ |
C
C
|
๋ชจ๋ ์์ญ
์ด ํ์ด์ง์ URL ๋ณต์ฌ |
S
S
|
๋งจ ์๋ก ์ด๋ |
T
T
|
ํฐ์คํ ๋ฆฌ ํ ์ด๋ |
H
H
|
๋จ์ถํค ์๋ด |
Shift + /
โง + /
|
* ๋จ์ถํค๋ ํ๊ธ/์๋ฌธ ๋์๋ฌธ์๋ก ์ด์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํฐ์คํ ๋ฆฌ ๊ธฐ๋ณธ ๋๋ฉ์ธ์์๋ง ๋์ํฉ๋๋ค.