The overview of this paper 이 논문에서는 LM의 zero-shot 학습 능력을 향상시키기 위한 간단한 method를 제안하였다. 이 간단한 method는 instruction tuning으로 instruction을 통해 묘사된 데이터셋의 모음에서 LM을 fine-tune 하는데, unseen task에 대해 zero-shot 성능을 상당히 향상시킨다. 논문에서는 137B PLM을 사용해서 60개의 NLP 데이터셋에서 자연어 instruction template을 통해 instruction tune을 하였다. 이 instruction-tuned model을 FLAN이라 부르고 unseen task 유형에서 평가하였다. FLAN은 수정되지 않은 counterpart의 성능을 크게 상회하..
The overview of this paper Large Language Model(LLM)은 다양한 task 세트에서 적정한 zero-shot 일반화를 보여주고 있다. 이는 LM의 pre-training에 내포되어 있는 multitask learning의 결과라고 가정할 수 있다. 그렇다면 과연 명시적 multitask learning에 의해 zero-shot 일반화가 직적 유도될 수 있을까? 이 질문을 테스트하기 위해, 논문에서는 자연어 task를 사람이 읽을 수 있는 형식의 prompt로 손쉽게 매핑하기 위한 시스템을 개발하였다. 논문에서는 다양한 워딩이 사용되는 각각의 다양한 prompt가 있는 supervised 데이터셋의 거대한 세트를 변환하였다. 이러한 prompt 데이터셋은 성공적으로 t..
The overview of this paper 이 논문에서는 각 모델의 pre-training 장점은 유지하며 이미지와 텍스트 모델을 정렬하기 위한 contrastive training을 사용하는 간단한 method를 제안하였다. 논문의 실험에 따르면 locked pre-trained image model & unlocked text model이 가장 좋은 성능을 보여주었다. 이러한 contrastive-tuning을 'Locked-image Tuning' (LiT)라고 부른다. LiT는 새로운 task에 대해 pre-trained image model로부터 좋은 representation을 읽어내기 위한 text model만을 가르친다. LiT 모델은 새로운 vision task에 대해서 zero-s..
논문 리뷰를 시작하기 전에 이번 논문 리뷰는 full paper를 읽고 작성하는 리뷰가 아니라는 점 감안하길 바란다. 원래는 full paper를 읽어보려고 하였으나, 이 논문에서 소개하고자 하는 것이 딱히 새로운 기술의 소개가 아닌 더 나은 모델을 사용하여 더 나은 결과를 얻어냈다고 생각하여 Microsoft Blog를 참고하여 작성하였다. The overview of this paper 이 논문에서는 vision language(VL) task에 대한 visual representation을 향상시키는 디테일한 연구를 진행하고 이미지에서 object 중심의 representation을 제공하기 위한 개선된 object detection model을 개발하였다. 주로 사용되는 모델들과 비교하여 논문에서..
The overview of this paper 다양한 SoTA vision & vision-and-language 모델들은 다양한 downstream task에서 좋은 성능을 얻기 위해 대규모의 vision-linguistic pre-training에 의존한다. 일반적으로 이러한 모델들은 주로 cross-model(contrastive) 이거나 multi-modal(earlier fusion)이다. 둘 다 아니라면 specific modality 또는 task를 타깃으로 한다. 앞으로 나아가야 할 방향은 모든 modality를 동시에 처리하는 하나의 universal model인 '토대(foundation)'를 사용하는 것이다. 논문에서는 이러한 모델인 FLAVA를 소개하고 35개의 task에서 이 모..
The overview of this paper 논문에서는 modular Transformer를 사용해서 dual encoder와 fusion encoder를 공동으로 학습하는 통합 Vision-Language pretrained Model(VLMO)를 소개하였다. 특히 논문에서는 Mixture-of-Modality-Experts(MoME) Transformer를 소개하였는데, 이것의 각 블록은 modality-specific 한 전문가와 공유된 self-attention layer를 가진다. MoME의 모델링 유연성 덕분에, pretrained VLMo는 vision-language 분류 task를 위해 fusion encoder로 fine-tune 될 수도 있고, 효율적인 image-text retr..
The overview of this paper 기존의 Vision-Language Pre-training(VLP)는 많은 multi-modal downstream task에서 인상적인 성능을 보여주고 있지만, 값비싼 annotation은 기존 모델들의 scalability를 제한하고, 다양한 dataset-specific objective의 소개로 pre-training 프로시저를 복잡하게 만든다. 이 논문에서는 이러한 제약을 완화하고 최소한의 pre-training 프레임워크Simple Visual Language Model(SimVLM)를 소개하였다. SimVLM은 다음과 같은 이점을 가진다. 대규모의 weak supervision을 사용함으로써 학습 복잡도를 낮춤 하나의 prefic languag..
The overview of this paper 대부분의 Vision-Language Pre-training(VLP)는 다양한 vision-language task에서 향상된 성능을 보여줬지만, 대부분의 odel들은 understanding 기반 이거나 generation 기반 둘 중에 하나에서 작동한다. 게다가, 성능 향상은 대부분 웹에서 수집된 noisy image-text 쌍을 사용한 데이터셋의 규모를 늘림으로써 얻어지게 되는데, 이것은 차선의 supervision이다. 이 논문에서는 vision-language understanding & generation을 유동적으로 전달하는 새로운 VLP 프레임워크인 BLIP을 소개하였다. BLIP은 캡션을 bootstrapping 함으로써 noisy web..
The overview of this paper 대부분의 vision & language representation 학습에는 visual token과 word token을 공동으로 모델링하기 위해 transformer 기반 multi-modal encoder가 사용되고 있다. 왜냐하면 visual 토큰과 word 토큰이 정렬되어 있지 않으면, multi-modal model이 image-text 상호작용을 학습하기 어렵기 때문이다. 이 논문에서는 ALign the image & text representations BEfore Fusing(ALBEF) 하기 위해 더욱 gorunded vision & language 학습을 가능하게 하는 cross-modal attention을 가능하게 해주는 contra..
The overview of this paper visual & vision-language representation은 전문적인 학습 데이터셋에 심하게 의존하고 있다. vision 응용을 위해서, representation은 ImageNet 또는 OpenImages와 같은 분명한 클래스 라벨이 있는 데이터셋을 사용하여 학습되었다. 그래서 기존에 사용하던 데이터셋의 데이터 수집 방법은 많은 비용이 들기 때문에, 데이터셋의 크기가 제한되고, 학습 모델의 scaling을 방해한다. 이 논문에서는 약 10억 개의 잡음이 섞여 있는 image alt-text 데이터셋을 Conceptual Captions 데이터셋에서 사용되는 비용이 비싼 filtering 또는 후처리 작업을 사용하지 않고 데이터셋을 구성하였다...