'Paper Reading 📜/Computer Vision' 카테고리의 글 목록

CLIP: Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰

2023.03.01

OpenAI에서 공개했던 CLIP의 논문을 읽고 리뷰해보았다. 전체 논문을 읽어보고 싶었으나 전체 논문의 분량이 너무 길어서 논문에서 중요하다고 생각되는 부분과 블로그를 참고하여 포스트를 작성하였다. OpenAI의 CLIP 소개 블로그는 여기를 참고하길 바란다. 자 그럼 지금부터 포스트를 시작해보도록 하겠다!! 🔥 CLIP: text와 image를 연결하다 OpenAI에서는 CLIP이라는 새로운 신경망 네트워크를 소개하였다. 이 CLIP은 자연어 supervision으로부터 visual concept를 효율적으로 학습하였다. CLIP은 단순히 인식할 visual category의 이름을 제공하여 GPT-2와 GPT-3처럼 'zero-shot'으로 모든 visual classification 벤치마크에 적..

Paper Reading 📜/Computer Vision

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 논문 리뷰

2022.12.18

The overview of this paper 이 논문에서는 새로운 vision Transformer인 Swin Transformer을 제안하였다. 이 Swin Transformer는 computer vision에 대해 general-purpose 척추같은 역할을 한다. 시각적 특성의 다양한 scale과 text에 비해 고해상도인 이미지와 같은 computer vision과 NLP 두 영역의 차이 때문에, Transformer을 computer vision에 적용시키는데 많은 문제가 있었다. 이러한 차이점을 극복하기 위해, 논문에서는 representation이 Shifted Windows와 함께 계산되는 hierarchical Transformer을 제안하였다. shifted windowing 기법은..

Paper Reading 📜/Computer Vision

ViT - An Image Worth 16 x 16 Words: Transformers for Image Recognition at Scale

2022.12.16

The overview of this paper Transformer architecture는 NLP 분야에서 매우 권위적이다. 하지만, 이를 computer vision에 사용하는 예는 극히 제한되어 있다. convolutional network의 사이에 attention을 사용하거나, convolutional network의 전반적인 구성을 바꾸긴 하지만, 절대 전반적인 구조를 바꾸지는 않는다. 논문에서는 이러한 CNN에 의존할 필요 없이 image의 patch에 직접적으로 Transformer를 적용하는 것이 더 좋은 성능을 보여줬다. 거대한 양의 이미지 데이터에서 pre-train을 하고, 이미지 벤치마크에 적용한 결과, Vision Transformer$($ViT$)$는 더욱 적은 계산 비용으로..

Paper Reading 📜/Computer Vision

Grad-CAM: Visual Explanation from Deep Networks via Gradient-based Localization 논문 리뷰

2022.11.14

Table of Contents 1. Introduction 2. Grad-CAM 1. Introduction Grad-CAM은 Gradient-weighted Class Activation Mapping의 약자로, CNN을 통해 이미지를 분석할 때 일반적으로 사람들은 그 과정을 볼 수 없지만, Grad-CAM을 활용하면 CNN의 활동 과정을 더욱 명백하고 자세하게 알 수 있다. Grad-CAM은 이전의 모델들과 달리 아무런 구조적 변화와 재학습 없이 CNN의 다양한 모델들에 적용이 가능하다!! 이 논문에서는 Grad-CAM과 fine-grained visualization을 결합하여 high-resolution class-discriminative visulaization을 할 수 있었다. 그리고 이를..

CLIP: Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 논문 리뷰

ViT - An Image Worth 16 x 16 Words: Transformers for Image Recognition at Scale

Grad-CAM: Visual Explanation from Deep Networks via Gradient-based Localization 논문 리뷰

티스토리툴바