'Paper Reading 📜/multimodal models' 카테고리의 글 목록

LiT🔥 : Zero-Shot Transfer with Locked-image text Tuning 논문 리뷰

2023.05.01

The overview of this paper 이 논문에서는 각 모델의 pre-training 장점은 유지하며 이미지와 텍스트 모델을 정렬하기 위한 contrastive training을 사용하는 간단한 method를 제안하였다. 논문의 실험에 따르면 locked pre-trained image model & unlocked text model이 가장 좋은 성능을 보여주었다. 이러한 contrastive-tuning을 'Locked-image Tuning' (LiT)라고 부른다. LiT는 새로운 task에 대해 pre-trained image model로부터 좋은 representation을 읽어내기 위한 text model만을 가르친다. LiT 모델은 새로운 vision task에 대해서 zero-s..

Paper Reading 📜/multimodal models

VinVL: Revisiting Visual Representations in Vision-Language Models 논문 리뷰

2023.04.28

논문 리뷰를 시작하기 전에 이번 논문 리뷰는 full paper를 읽고 작성하는 리뷰가 아니라는 점 감안하길 바란다. 원래는 full paper를 읽어보려고 하였으나, 이 논문에서 소개하고자 하는 것이 딱히 새로운 기술의 소개가 아닌 더 나은 모델을 사용하여 더 나은 결과를 얻어냈다고 생각하여 Microsoft Blog를 참고하여 작성하였다. The overview of this paper 이 논문에서는 vision language(VL) task에 대한 visual representation을 향상시키는 디테일한 연구를 진행하고 이미지에서 object 중심의 representation을 제공하기 위한 개선된 object detection model을 개발하였다. 주로 사용되는 모델들과 비교하여 논문에서..

Paper Reading 📜/multimodal models

FLAVA: A Foundational Language And Vision Alignment Model 논문 리뷰

2023.04.27

The overview of this paper 다양한 SoTA vision & vision-and-language 모델들은 다양한 downstream task에서 좋은 성능을 얻기 위해 대규모의 vision-linguistic pre-training에 의존한다. 일반적으로 이러한 모델들은 주로 cross-model(contrastive) 이거나 multi-modal(earlier fusion)이다. 둘 다 아니라면 specific modality 또는 task를 타깃으로 한다. 앞으로 나아가야 할 방향은 모든 modality를 동시에 처리하는 하나의 universal model인 '토대(foundation)'를 사용하는 것이다. 논문에서는 이러한 모델인 FLAVA를 소개하고 35개의 task에서 이 모..

Paper Reading 📜/multimodal models

VLMo: Unified Vision-Language Pre-training with Mixture-of-Modality-Experts 논문 리뷰

2023.04.27

The overview of this paper 논문에서는 modular Transformer를 사용해서 dual encoder와 fusion encoder를 공동으로 학습하는 통합 Vision-Language pretrained Model(VLMO)를 소개하였다. 특히 논문에서는 Mixture-of-Modality-Experts(MoME) Transformer를 소개하였는데, 이것의 각 블록은 modality-specific 한 전문가와 공유된 self-attention layer를 가진다. MoME의 모델링 유연성 덕분에, pretrained VLMo는 vision-language 분류 task를 위해 fusion encoder로 fine-tune 될 수도 있고, 효율적인 image-text retr..

Paper Reading 📜/multimodal models

SimVLM: Simple Visual Language Model Pre-training with Weak Supervision 논문 리뷰

2023.04.26

The overview of this paper 기존의 Vision-Language Pre-training(VLP)는 많은 multi-modal downstream task에서 인상적인 성능을 보여주고 있지만, 값비싼 annotation은 기존 모델들의 scalability를 제한하고, 다양한 dataset-specific objective의 소개로 pre-training 프로시저를 복잡하게 만든다. 이 논문에서는 이러한 제약을 완화하고 최소한의 pre-training 프레임워크Simple Visual Language Model(SimVLM)를 소개하였다. SimVLM은 다음과 같은 이점을 가진다. 대규모의 weak supervision을 사용함으로써 학습 복잡도를 낮춤 하나의 prefic languag..

Paper Reading 📜/multimodal models

BLIP: Bootstrapping Language-Image Pre-training fro Unified Vision-Language Understanding and Generation 논문 리뷰

2023.04.24

The overview of this paper 대부분의 Vision-Language Pre-training(VLP)는 다양한 vision-language task에서 향상된 성능을 보여줬지만, 대부분의 odel들은 understanding 기반 이거나 generation 기반 둘 중에 하나에서 작동한다. 게다가, 성능 향상은 대부분 웹에서 수집된 noisy image-text 쌍을 사용한 데이터셋의 규모를 늘림으로써 얻어지게 되는데, 이것은 차선의 supervision이다. 이 논문에서는 vision-language understanding & generation을 유동적으로 전달하는 새로운 VLP 프레임워크인 BLIP을 소개하였다. BLIP은 캡션을 bootstrapping 함으로써 noisy web..

Paper Reading 📜/multimodal models

ALBEF: Vision and Language Representation Learning with Momentum Distillation 논문

2023.04.23

The overview of this paper 대부분의 vision & language representation 학습에는 visual token과 word token을 공동으로 모델링하기 위해 transformer 기반 multi-modal encoder가 사용되고 있다. 왜냐하면 visual 토큰과 word 토큰이 정렬되어 있지 않으면, multi-modal model이 image-text 상호작용을 학습하기 어렵기 때문이다. 이 논문에서는 ALign the image & text representations BEfore Fusing(ALBEF) 하기 위해 더욱 gorunded vision & language 학습을 가능하게 하는 cross-modal attention을 가능하게 해주는 contra..

Paper Reading 📜/multimodal models

ALIGN: Scaling up Visual and Vision-Language Representation with Noisy Text Supervision 논문 리뷰

2023.04.20

The overview of this paper visual & vision-language representation은 전문적인 학습 데이터셋에 심하게 의존하고 있다. vision 응용을 위해서, representation은 ImageNet 또는 OpenImages와 같은 분명한 클래스 라벨이 있는 데이터셋을 사용하여 학습되었다. 그래서 기존에 사용하던 데이터셋의 데이터 수집 방법은 많은 비용이 들기 때문에, 데이터셋의 크기가 제한되고, 학습 모델의 scaling을 방해한다. 이 논문에서는 약 10억 개의 잡음이 섞여 있는 image alt-text 데이터셋을 Conceptual Captions 데이터셋에서 사용되는 비용이 비싼 filtering 또는 후처리 작업을 사용하지 않고 데이터셋을 구성하였다...

Paper Reading 📜/multimodal models

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision 논문 리뷰

2023.04.19

The overview of this paper 여러 vision-and-language task에서 좋은 성능을 내고 있는 VLP는 region supervision(object detection)과 convolutional architecture(ResNet)에 상당히 의존하여 이미지에서 feature를 추출한다. 이러한 점이 효율성/속도와 표현력 측면에서 문제라는 것을 발견하였다. 효율성/속도: 입력 feature 추출이 multi-modal 상호작용보다 더 많은 계산량을 필요로 함. 표현력: 시각적 임베더의 표현력과 미리 정의된 시각적 vocabulary에 대한 상한이 있기 때문. 이 논문에서는 작은 규모의 VLP model인 Vision-and-Language Transformer(ViLT)를 ..

Paper Reading 📜/multimodal models

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 논문 리뷰

2023.04.18

The overview of this paper image-text 쌍에서 cross-modal representation 학습의 대규모 pre-training method는 vision-language task에서 유명해졌다. 하지만 기존의 방법들은 그저 image region feature와 text feature을 연결하기만 할 뿐, 다른 조치를 취하지 않았다. 그래서 이 논문에서는 이미지에서 감지된 object tag를 anchor point로 사용하는 새로운 학습 방법인 Oscar을 소개하였다. 이로 인해 정렬의 학습을 더욱 쉽게 해 주었다. 이 method는 object detector로부터 가장 중요한 object가 감지될 테고, paired text에서 이 object 종종 언급될 것이라는..

티스토리툴바