'Paper Reading 📜/multimodal models' 카테고리의 글 목록 (2 Page)

VLP: Unified Vision-Language Pre-Traning for Image Captioning and VQA 논문 리뷰

2023.04.17

The overview of this paper 이 논문에서는 통합된 Vision-Language Pre-training(VLP) model을 제안하였다. 모델은 다음의 두 가지를 통합하였다. 이로 인해 VLP는 encoder와 decoder를 서로 다른 각기의 모델로 구현한 method들과 다른 점을 가지게 되었다. visual-language 이해 또는 생성을 위해 fine-tune encoding & decoding을 위해 공유된 multi-layer transformer를 사용 통합 VLP model은 2개의 task에 대한 unsupervised learning 목표를 사용해서 거대한 양의 image-text 짝에서 pre-train 되었다: bi-directional & sequence-to-..

Paper Reading 📜/multimodal models

VL-BERT: Pre-training of Generic Visual-Linguistic Representations 논문 리뷰

2023.04.16

The overview of this paper 논문에서는 Visual-Linguistic BERT $($ VL-BERT $)$ 라 불리는 visual-linguistic task를 위한 새로운 pre-train 가능한 포괄적인 representation을 소개하였다. VL-BERT는 간단하지만 강력한 Transformer model을 backbone으로 사용하여 시각적 및 언어적 embedded feature을 입력으로 받아서 확장하는 모델을 채택하였다. 입력값은 segment로부터 나온 word와 input 이미지로부터 나온 RoI feature이다. VL-BERT는 더욱 포괄적인 representation을 사용하기 위해 대규모의 Conceptual Captions 데이터셋과 text-only corpus..

Paper Reading 📜/multimodal models

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 논문 리뷰

2023.04.13

The overview of this paper vision-and-language 추론은 시각적 개념과 언어적 의미에 대한 이해를 필요로 하고, 가장 중요한 것은 이 두 modality 간의 정렬을 필요로 한다. 따라서 논문에서는 이러한 vision-and-language 연결성을 학습하기 위해 LXMERT $($ Learning Cross-Modality Encoder Representation from Transforer $)$ 를 제안하였다. LXMERT는 3개의 인코더로 구성된 대규모의 Transformer model을 사용하고, vision과 language semantic을 연결하기 위해 5개의 다양한 representative pre-training task를 사용하였다. 이 task들은 intr..

Paper Reading 📜/multimodal models

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Visual-and-Language Tasks

2023.04.12

The overview of this paper 논문에서는 image와 language의 task-agnostic joint representation을 학습하기 위한 모델인 ViLBERT를 제안하였다. 이 모델은 NLP 분야에서 유명한 BERT architecture를 multi-modal two-stream model로 확장한 모델이다. 이로 인해 ViLBERT는 co-attentional transformer를 통해 상호작용하는 개별의 stream에서 시각적 및 언어적 입력을 함께 처리한다. 논문에서는 ViLBERT를 기존의 base architecture에 사소한 추가만을 하고 두 개의 proxy task를 자동으로 수집된 거대한 Conceptual Captions 데이터셋을 통해 pre-trai..

Paper Reading 📜/multimodal models

VisualBERT: A Simple and Performant Baseline for Vision and Language 논문 리뷰

2023.04.11

The overview of this paper 이 논문에서는 광범위한 vision-language task를 모델링하기 위한 간단하고 유연한 프레임워크인 VisualBERT를 제안하였다. VisualBERT는 self-attention을 사용하여 입력 텍스트와 영역의 요소들을 연관된 입력 이미지로 정렬하는 Transformer layer의 스택으로 이루어져 있다. 논문에서는 VisualBERT를 image caption 데이터에서 pre-training 시키기 위해 추가적으로 두 개의 visually-grounded language model 목표를 제안하였다. VQA, VCR, NLVR, Flickr30K 이렇게 4개의 vision-language task에 진행한 실험은 VisualBERT가 간단하..

Paper Reading 📜/multimodal models

VLM(Vision-Language Model)에 대해 알아보자!

2023.04.10

요즘 들어서는 한 가지 기술로는 성공할 수 없는 시대라고 한다. 한 마디로 '융합'이 필요가 아닌 필수가 되어가고 있는 세상이다. 이번에 OpenAI에서 공개한 GPT-4도 이전의 GPT 모델들과 달리 이미지 데이터도 처리할 수 있는 multimodal 성을 보여줬다. 실로 엄청난 발전이라고 할 수 있는데, 이번 포스트에서는 multimodal model의 한 종류인 Vision-Language Model $($ VLM $)$ 에 대해 알아보도록 하겠다! 이 포스트는 HuggingFace의 블로그를 참고하여 작성되었다. HuggingFace Blog: https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-..

Paper Reading 📜/multimodal models

PaLM-E: An Embodied Multimodal Language Model 논문 리뷰

2023.03.21

얼마 전에 블로그에 구글에서 소개한 PaLM에 대한 리뷰 포스트를 올렸던 기억이 난다. 엄청난 양의 파라미터 수로 인해 깜짝 놀랐던 기억이 나는데, 이제는 이 PaLM이 더욱 multimodal 스러워졌다. 이번 포스트에서는 이제 텍스트를 넘어서 이미지까지도 처리할 수 있는 모델이 되어버린 PaLM-'E'에 대해서 알아보도록 하겠다. 본 포스트는 논문과 구글의 소개 블로그를 참고하여 작성되었다. The overview of PaLM-E 최근 몇 년 동안 머신 러닝에서는 엄청난 발전을 이룩하였다. 이렇게 발전된 모델들은 조크를 설명하거나 시각적 질문에 응답하는 등의 다양한 언어적 문제를 해결할 수 있게 되었다. 심지어는 텍스트 설명이 주어지면 이미지를 생성해내기도 한다! 😲 이러한 혁신은 큰 데이터셋의 사..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Paper Reading 📜/multimodal models

VLP: Unified Vision-Language Pre-Traning for Image Captioning and VQA 논문 리뷰

VL-BERT: Pre-training of Generic Visual-Linguistic Representations 논문 리뷰

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 논문 리뷰

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Visual-and-Language Tasks

VisualBERT: A Simple and Performant Baseline for Vision and Language 논문 리뷰

VLM(Vision-Language Model)에 대해 알아보자!

PaLM-E: An Embodied Multimodal Language Model 논문 리뷰

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역