Paper Reading ๐/multimodal models
The overview of this paper ์ฌ๋ฌ vision-and-language task์์ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ VLP๋ region supervision(object detection)๊ณผ convolutional architecture(ResNet)์ ์๋นํ ์์กดํ์ฌ ์ด๋ฏธ์ง์์ feature๋ฅผ ์ถ์ถํ๋ค. ์ด๋ฌํ ์ ์ด ํจ์จ์ฑ/์๋์ ํํ๋ ฅ ์ธก๋ฉด์์ ๋ฌธ์ ๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ํจ์จ์ฑ/์๋: ์
๋ ฅ feature ์ถ์ถ์ด multi-modal ์ํธ์์ฉ๋ณด๋ค ๋ ๋ง์ ๊ณ์ฐ๋์ ํ์๋ก ํจ. ํํ๋ ฅ: ์๊ฐ์ ์๋ฒ ๋์ ํํ๋ ฅ๊ณผ ๋ฏธ๋ฆฌ ์ ์๋ ์๊ฐ์ vocabulary์ ๋ํ ์ํ์ด ์๊ธฐ ๋๋ฌธ. ์ด ๋
ผ๋ฌธ์์๋ ์์ ๊ท๋ชจ์ VLP model์ธ Vision-and-Language Transformer(ViLT)๋ฅผ ..
Paper Reading ๐/multimodal models
The overview of this paper image-text ์์์ cross-modal representation ํ์ต์ ๋๊ท๋ชจ pre-training method๋ vision-language task์์ ์ ๋ช
ํด์ก๋ค. ํ์ง๋ง ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ ๊ทธ์ image region feature์ text feature์ ์ฐ๊ฒฐํ๊ธฐ๋ง ํ ๋ฟ, ๋ค๋ฅธ ์กฐ์น๋ฅผ ์ทจํ์ง ์์๋ค. ๊ทธ๋์ ์ด ๋
ผ๋ฌธ์์๋ ์ด๋ฏธ์ง์์ ๊ฐ์ง๋ object tag๋ฅผ anchor point๋ก ์ฌ์ฉํ๋ ์๋ก์ด ํ์ต ๋ฐฉ๋ฒ์ธ Oscar์ ์๊ฐํ์๋ค. ์ด๋ก ์ธํด ์ ๋ ฌ์ ํ์ต์ ๋์ฑ ์ฝ๊ฒ ํด ์ฃผ์๋ค. ์ด method๋ object detector๋ก๋ถํฐ ๊ฐ์ฅ ์ค์ํ object๊ฐ ๊ฐ์ง๋ ํ
๊ณ , paired text์์ ์ด object ์ข
์ข
์ธ๊ธ๋ ๊ฒ์ด๋ผ๋..
Paper Reading ๐/multimodal models
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ํตํฉ๋ Vision-Language Pre-training(VLP) model์ ์ ์ํ์๋ค. ๋ชจ๋ธ์ ๋ค์์ ๋ ๊ฐ์ง๋ฅผ ํตํฉํ์๋ค. ์ด๋ก ์ธํด VLP๋ encoder์ decoder๋ฅผ ์๋ก ๋ค๋ฅธ ๊ฐ๊ธฐ์ ๋ชจ๋ธ๋ก ๊ตฌํํ method๋ค๊ณผ ๋ค๋ฅธ ์ ์ ๊ฐ์ง๊ฒ ๋์๋ค. visual-language ์ดํด ๋๋ ์์ฑ์ ์ํด fine-tune encoding & decoding์ ์ํด ๊ณต์ ๋ multi-layer transformer๋ฅผ ์ฌ์ฉ ํตํฉ VLP model์ 2๊ฐ์ task์ ๋ํ unsupervised learning ๋ชฉํ๋ฅผ ์ฌ์ฉํด์ ๊ฑฐ๋ํ ์์ image-text ์ง์์ pre-train ๋์๋ค: bi-directional & sequence-to-..
Paper Reading ๐/multimodal models
The overview of this paper ๋
ผ๋ฌธ์์๋ Visual-Linguistic BERT$($VL-BERT$)$๋ผ ๋ถ๋ฆฌ๋ visual-linguistic task๋ฅผ ์ํ ์๋ก์ด pre-train ๊ฐ๋ฅํ ํฌ๊ด์ ์ธ representation์ ์๊ฐํ์๋ค. VL-BERT๋ ๊ฐ๋จํ์ง๋ง ๊ฐ๋ ฅํ Transformer model์ backbone์ผ๋ก ์ฌ์ฉํ์ฌ ์๊ฐ์ ๋ฐ ์ธ์ด์ embedded feature์ ์
๋ ฅ์ผ๋ก ๋ฐ์์ ํ์ฅํ๋ ๋ชจ๋ธ์ ์ฑํํ์๋ค. ์
๋ ฅ๊ฐ์ segment๋ก๋ถํฐ ๋์จ word์ input ์ด๋ฏธ์ง๋ก๋ถํฐ ๋์จ RoI feature์ด๋ค. VL-BERT๋ ๋์ฑ ํฌ๊ด์ ์ธ representation์ ์ฌ์ฉํ๊ธฐ ์ํด ๋๊ท๋ชจ์ Conceptual Captions ๋ฐ์ดํฐ์
๊ณผ text-only corpus..
Paper Reading ๐/multimodal models
The overview of this paper vision-and-language ์ถ๋ก ์ ์๊ฐ์ ๊ฐ๋
๊ณผ ์ธ์ด์ ์๋ฏธ์ ๋ํ ์ดํด๋ฅผ ํ์๋ก ํ๊ณ , ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ์ด ๋ modality ๊ฐ์ ์ ๋ ฌ์ ํ์๋ก ํ๋ค. ๋ฐ๋ผ์ ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ vision-and-language ์ฐ๊ฒฐ์ฑ์ ํ์ตํ๊ธฐ ์ํด LXMERT$($Learning Cross-Modality Encoder Representation from Transforer$)$๋ฅผ ์ ์ํ์๋ค. LXMERT๋ 3๊ฐ์ ์ธ์ฝ๋๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ์ Transformer model์ ์ฌ์ฉํ๊ณ , vision๊ณผ language semantic์ ์ฐ๊ฒฐํ๊ธฐ ์ํด 5๊ฐ์ ๋ค์ํ representative pre-training task๋ฅผ ์ฌ์ฉํ์๋ค. ์ด task๋ค์ intr..
Paper Reading ๐/multimodal models
The overview of this paper ๋
ผ๋ฌธ์์๋ image์ language์ task-agnostic joint representation์ ํ์ตํ๊ธฐ ์ํ ๋ชจ๋ธ์ธ ViLBERT๋ฅผ ์ ์ํ์๋ค. ์ด ๋ชจ๋ธ์ NLP ๋ถ์ผ์์ ์ ๋ช
ํ BERT architecture๋ฅผ multi-modal two-stream model๋ก ํ์ฅํ ๋ชจ๋ธ์ด๋ค. ์ด๋ก ์ธํด ViLBERT๋ co-attentional transformer๋ฅผ ํตํด ์ํธ์์ฉํ๋ ๊ฐ๋ณ์ stream์์ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์
๋ ฅ์ ํจ๊ป ์ฒ๋ฆฌํ๋ค. ๋
ผ๋ฌธ์์๋ ViLBERT๋ฅผ ๊ธฐ์กด์ base architecture์ ์ฌ์ํ ์ถ๊ฐ๋ง์ ํ๊ณ ๋ ๊ฐ์ proxy task๋ฅผ ์๋์ผ๋ก ์์ง๋ ๊ฑฐ๋ํ Conceptual Captions ๋ฐ์ดํฐ์
์ ํตํด pre-trai..
Paper Reading ๐/multimodal models
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ๊ด๋ฒ์ํ vision-language task๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํ ๊ฐ๋จํ๊ณ ์ ์ฐํ ํ๋ ์์ํฌ์ธ VisualBERT๋ฅผ ์ ์ํ์๋ค. VisualBERT๋ self-attention์ ์ฌ์ฉํ์ฌ ์
๋ ฅ ํ
์คํธ์ ์์ญ์ ์์๋ค์ ์ฐ๊ด๋ ์
๋ ฅ ์ด๋ฏธ์ง๋ก ์ ๋ ฌํ๋ Transformer layer์ ์คํ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ๋
ผ๋ฌธ์์๋ VisualBERT๋ฅผ image caption ๋ฐ์ดํฐ์์ pre-training ์ํค๊ธฐ ์ํด ์ถ๊ฐ์ ์ผ๋ก ๋ ๊ฐ์ visually-grounded language model ๋ชฉํ๋ฅผ ์ ์ํ์๋ค. VQA, VCR, NLVR, Flickr30K ์ด๋ ๊ฒ 4๊ฐ์ vision-language task์ ์งํํ ์คํ์ VisualBERT๊ฐ ๊ฐ๋จํ..
Paper Reading ๐/multimodal models
์์ฆ ๋ค์ด์๋ ํ ๊ฐ์ง ๊ธฐ์ ๋ก๋ ์ฑ๊ณตํ ์ ์๋ ์๋๋ผ๊ณ ํ๋ค. ํ ๋ง๋๋ก '์ตํฉ'์ด ํ์๊ฐ ์๋ ํ์๊ฐ ๋์ด๊ฐ๊ณ ์๋ ์ธ์์ด๋ค. ์ด๋ฒ์ OpenAI์์ ๊ณต๊ฐํ GPT-4๋ ์ด์ ์ GPT ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ ์ฒ๋ฆฌํ ์ ์๋ multimodal ์ฑ์ ๋ณด์ฌ์คฌ๋ค. ์ค๋ก ์์ฒญ๋ ๋ฐ์ ์ด๋ผ๊ณ ํ ์ ์๋๋ฐ, ์ด๋ฒ ํฌ์คํธ์์๋ multimodal model์ ํ ์ข
๋ฅ์ธ Vision-Language Model$($VLM$)$์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ๋ค! ์ด ํฌ์คํธ๋ HuggingFace์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค. HuggingFace Blog: https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-..
Paper Reading ๐/Natural Language Processing
์ด์ ์ฃผ๋ณ์์ ChatGPT๋ฅผ ์จ๋ณธ ์ฌ๋๋ณด๋ค ์ ์จ๋ณธ ์ฌ๋์ ์ฐพ๊ธฐ ํ๋ค ์ ๋๋ก ์ฐ๋ฆฌ ์ฌํ์ ๊น์ด ์ค๋ฉฐ๋ค์๋ค. ํ์๋ ์ด ChatGPT์ ๊ดํ ๋
ผ๋ฌธ์ ๋ํด์๋ ์ฌ๋ฌ ๋ฒ ๋ฆฌ๋ทฐ๋ฅผ ํ๋ค. ์ด๋ฐ ๋
ผ๋ฌธ์ ๋ฆฌ๋ทฐํ ๋๋ง๋ค ๋๋ผ์ง๋ง ChatGPT๋ ์ ๋ง ํ์ ์ ์ธ ๊ธฐ์ ์ด๋ผ๊ณ ์๊ฐํ๋ค. ํ์ง๋ง, ์ด๋ฐ ChatGPT๋ ์ฌ๋ฌ๊ฐ์ง ํ ์ ๊ฐ์ง๊ณ ์๋๋ฐ, ์๋ฅผ ๋ค์ด ๊ฐ์ฅ ํฐ ๋ฌธ์ ์ ์ค ํ๋์ธ hallucination$($ํ๊ฐ$)$์ด ์๋ค. ์ด hallucination์ ๋ชจ๋ธ์ด ๋ชจ๋ฅด๊ณ ์๋ ์ ๋ณด์ ๋ํ query๊ฐ ๋ค์ด์์ ๋ ์ด query๋ฅผ ๋ชจ๋ฆ์๋ ๋ถ๊ตฌํ๊ณ ์๋ ๊ฒ์ฒ๋ผ ์๋ ์ฌ์ค์ ๋ง๋ค์ด๋ด๋ ์ฆ์์ ์๋ฏธํ๋ค. ๋๋ ์ค์ ๋ก ์๋ ์ ๋ณด์์๋ ๋ถ๊ตฌํ๊ณ ์๋ ๊ฒ์ฒ๋ผ ์ฃผ์ฅํด์ ์ฌ์ฉ์์๊ฒ ์๋ชป๋ ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ๋ ๋ฑ์ ๋ฌธ์ ๋ค์ ๋งํ๋ค. ์ด๋ฌ..
Paper Reading ๐/Natural Language Processing
The overview of this paper BERT์ RoBERTa๋ semantic textual simialrity$($STS$)$ ๊ฐ์ ๋ฌธ์ฅ ์ ํ๊ท task์ ๋ํด์ ์๋ก์ด SoTA performance๋ฅผ ๋ฌ์ฑํ์๋ค. ํ์ง๋ง ์ด๋ฌํ task๋ ๋ ๋ฌธ์ฅ์ด ๋คํธ์ํฌ์ ์
๋ ฅ๋์ด์ผ ํ๋ฏ๋ก ์๋นํ computational overhead๋ฅผ ๋ฐ์์ํจ๋ค. BERT๋ฅผ ์ฌ์ฉํ์ฌ 10,000๊ฐ ๋ฌธ์ฅ์ ๋ชจ์์์ ๊ฐ์ฅ ๋น์ทํ ์ง์ ์ฐพ๋ ๊ฒ์ 5,000๋ง ๋ฒ์ ์ถ๋ก ๊ณ์ฐ์ด ํ์ํ๋ค. ์ด๋ฌํ BERT์ ๊ตฌ์กฐ๋ semantic similarity search ๋ฟ๋ง ์๋๋ผ clustering ๊ฐ์ unsupervised task์ ๋ํด์๋ ๋ถ์ ํฉํ๋ค. ๋
ผ๋ฌธ์์๋ simase & triplet network๋ฅผ ์ฌ์ฉํด์ c..