My Posting

Paper Reading 📜/multimodal models

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision 논문 리뷰

The overview of this paper 여러 vision-and-language task에서 좋은 성능을 내고 있는 VLP는 region supervision(object detection)과 convolutional architecture(ResNet)에 상당히 의존하여 이미지에서 feature를 추출한다. 이러한 점이 효율성/속도와 표현력 측면에서 문제라는 것을 발견하였다. 효율성/속도: 입력 feature 추출이 multi-modal 상호작용보다 더 많은 계산량을 필요로 함. 표현력: 시각적 임베더의 표현력과 미리 정의된 시각적 vocabulary에 대한 상한이 있기 때문. 이 논문에서는 작은 규모의 VLP model인 Vision-and-Language Transformer(ViLT)를 ..

Paper Reading 📜/multimodal models

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 논문 리뷰

The overview of this paper image-text 쌍에서 cross-modal representation 학습의 대규모 pre-training method는 vision-language task에서 유명해졌다. 하지만 기존의 방법들은 그저 image region feature와 text feature을 연결하기만 할 뿐, 다른 조치를 취하지 않았다. 그래서 이 논문에서는 이미지에서 감지된 object tag를 anchor point로 사용하는 새로운 학습 방법인 Oscar을 소개하였다. 이로 인해 정렬의 학습을 더욱 쉽게 해 주었다. 이 method는 object detector로부터 가장 중요한 object가 감지될 테고, paired text에서 이 object 종종 언급될 것이라는..

Paper Reading 📜/multimodal models

VLP: Unified Vision-Language Pre-Traning for Image Captioning and VQA 논문 리뷰

The overview of this paper 이 논문에서는 통합된 Vision-Language Pre-training(VLP) model을 제안하였다. 모델은 다음의 두 가지를 통합하였다. 이로 인해 VLP는 encoder와 decoder를 서로 다른 각기의 모델로 구현한 method들과 다른 점을 가지게 되었다. visual-language 이해 또는 생성을 위해 fine-tune encoding & decoding을 위해 공유된 multi-layer transformer를 사용 통합 VLP model은 2개의 task에 대한 unsupervised learning 목표를 사용해서 거대한 양의 image-text 짝에서 pre-train 되었다: bi-directional & sequence-to-..

Paper Reading 📜/multimodal models

VL-BERT: Pre-training of Generic Visual-Linguistic Representations 논문 리뷰

The overview of this paper 논문에서는 Visual-Linguistic BERT$($VL-BERT$)$라 불리는 visual-linguistic task를 위한 새로운 pre-train 가능한 포괄적인 representation을 소개하였다. VL-BERT는 간단하지만 강력한 Transformer model을 backbone으로 사용하여 시각적 및 언어적 embedded feature을 입력으로 받아서 확장하는 모델을 채택하였다. 입력값은 segment로부터 나온 word와 input 이미지로부터 나온 RoI feature이다. VL-BERT는 더욱 포괄적인 representation을 사용하기 위해 대규모의 Conceptual Captions 데이터셋과 text-only corpus..

Paper Reading 📜/multimodal models

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 논문 리뷰

The overview of this paper vision-and-language 추론은 시각적 개념과 언어적 의미에 대한 이해를 필요로 하고, 가장 중요한 것은 이 두 modality 간의 정렬을 필요로 한다. 따라서 논문에서는 이러한 vision-and-language 연결성을 학습하기 위해 LXMERT$($Learning Cross-Modality Encoder Representation from Transforer$)$를 제안하였다. LXMERT는 3개의 인코더로 구성된 대규모의 Transformer model을 사용하고, vision과 language semantic을 연결하기 위해 5개의 다양한 representative pre-training task를 사용하였다. 이 task들은 intr..

Paper Reading 📜/multimodal models

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Visual-and-Language Tasks

The overview of this paper 논문에서는 image와 language의 task-agnostic joint representation을 학습하기 위한 모델인 ViLBERT를 제안하였다. 이 모델은 NLP 분야에서 유명한 BERT architecture를 multi-modal two-stream model로 확장한 모델이다. 이로 인해 ViLBERT는 co-attentional transformer를 통해 상호작용하는 개별의 stream에서 시각적 및 언어적 입력을 함께 처리한다. 논문에서는 ViLBERT를 기존의 base architecture에 사소한 추가만을 하고 두 개의 proxy task를 자동으로 수집된 거대한 Conceptual Captions 데이터셋을 통해 pre-trai..

Paper Reading 📜/multimodal models

VisualBERT: A Simple and Performant Baseline for Vision and Language 논문 리뷰

The overview of this paper 이 논문에서는 광범위한 vision-language task를 모델링하기 위한 간단하고 유연한 프레임워크인 VisualBERT를 제안하였다. VisualBERT는 self-attention을 사용하여 입력 텍스트와 영역의 요소들을 연관된 입력 이미지로 정렬하는 Transformer layer의 스택으로 이루어져 있다. 논문에서는 VisualBERT를 image caption 데이터에서 pre-training 시키기 위해 추가적으로 두 개의 visually-grounded language model 목표를 제안하였다. VQA, VCR, NLVR, Flickr30K 이렇게 4개의 vision-language task에 진행한 실험은 VisualBERT가 간단하..

Paper Reading 📜/multimodal models

VLM(Vision-Language Model)에 대해 알아보자!

요즘 들어서는 한 가지 기술로는 성공할 수 없는 시대라고 한다. 한 마디로 '융합'이 필요가 아닌 필수가 되어가고 있는 세상이다. 이번에 OpenAI에서 공개한 GPT-4도 이전의 GPT 모델들과 달리 이미지 데이터도 처리할 수 있는 multimodal 성을 보여줬다. 실로 엄청난 발전이라고 할 수 있는데, 이번 포스트에서는 multimodal model의 한 종류인 Vision-Language Model$($VLM$)$에 대해 알아보도록 하겠다! 이 포스트는 HuggingFace의 블로그를 참고하여 작성되었다. HuggingFace Blog: https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-..

Paper Reading 📜/Natural Language Processing

ChatGPT의 hallucination, 어떻게 해결해야 할까? - Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback

이제 주변에서 ChatGPT를 써본 사람보다 안 써본 사람을 찾기 힘들 정도로 우리 사회에 깊이 스며들었다. 필자도 이 ChatGPT에 관한 논문에 대해서도 여러 번 리뷰를 했다. 이런 논문을 리뷰할 때마다 느끼지만 ChatGPT는 정말 혁신적인 기술이라고 생각한다. 하지만, 이런 ChatGPT도 여러가지 흠을 가지고 있는데, 예를 들어 가장 큰 문제점 중 하나인 hallucination$($환각$)$이 있다. 이 hallucination은 모델이 모르고 있는 정보에 대한 query가 들어왔을 때 이 query를 모름에도 불구하고 아는 것처럼 없는 사실을 만들어내는 증상을 의미한다. 또는 실제로 없는 정보임에도 불구하고 있는 것처럼 주장해서 사용자에게 잘못된 정보를 제공해주는 등의 문제들을 말한다. 이러..

Paper Reading 📜/Natural Language Processing

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 논문 리뷰

The overview of this paper BERT와 RoBERTa는 semantic textual simialrity$($STS$)$ 같은 문장 쌍 회귀 task에 대해서 새로운 SoTA performance를 달성하였다. 하지만 이러한 task는 두 문장이 네트워크에 입력되어야 하므로 상당한 computational overhead를 발생시킨다. BERT를 사용하여 10,000개 문장의 모음에서 가장 비슷한 짝을 찾는 것은 5,000만 번의 추론 계산이 필요하다. 이러한 BERT의 구조는 semantic similarity search 뿐만 아니라 clustering 같은 unsupervised task에 대해서는 부적합하다. 논문에서는 simase & triplet network를 사용해서 c..

Cartinoe
'분류 전체보기' 카테고리의 글 목록 (7 Page)