Paper Reading ๐/Computer Vision
OpenAI์์ ๊ณต๊ฐํ๋ CLIP์ ๋
ผ๋ฌธ์ ์ฝ๊ณ ๋ฆฌ๋ทฐํด๋ณด์๋ค. ์ ์ฒด ๋
ผ๋ฌธ์ ์ฝ์ด๋ณด๊ณ ์ถ์์ผ๋ ์ ์ฒด ๋
ผ๋ฌธ์ ๋ถ๋์ด ๋๋ฌด ๊ธธ์ด์ ๋
ผ๋ฌธ์์ ์ค์ํ๋ค๊ณ ์๊ฐ๋๋ ๋ถ๋ถ๊ณผ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ํฌ์คํธ๋ฅผ ์์ฑํ์๋ค. OpenAI์ CLIP ์๊ฐ ๋ธ๋ก๊ทธ๋ ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค. ์ ๊ทธ๋ผ ์ง๊ธ๋ถํฐ ํฌ์คํธ๋ฅผ ์์ํด๋ณด๋๋ก ํ๊ฒ ๋ค!! ๐ฅ CLIP: text์ image๋ฅผ ์ฐ๊ฒฐํ๋ค OpenAI์์๋ CLIP์ด๋ผ๋ ์๋ก์ด ์ ๊ฒฝ๋ง ๋คํธ์ํฌ๋ฅผ ์๊ฐํ์๋ค. ์ด CLIP์ ์์ฐ์ด supervision์ผ๋ก๋ถํฐ visual concept๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ์๋ค. CLIP์ ๋จ์ํ ์ธ์ํ visual category์ ์ด๋ฆ์ ์ ๊ณตํ์ฌ GPT-2์ GPT-3์ฒ๋ผ 'zero-shot'์ผ๋ก ๋ชจ๋ visual classification ๋ฒค์น๋งํฌ์ ์ ..
Paper Reading ๐/Computer Vision
The overview of this paper ์ด ๋
ผ๋ฌธ์์๋ ์๋ก์ด vision Transformer์ธ Swin Transformer์ ์ ์ํ์๋ค. ์ด Swin Transformer๋ computer vision์ ๋ํด general-purpose ์ฒ์ถ๊ฐ์ ์ญํ ์ ํ๋ค. ์๊ฐ์ ํน์ฑ์ ๋ค์ํ scale๊ณผ text์ ๋นํด ๊ณ ํด์๋์ธ ์ด๋ฏธ์ง์ ๊ฐ์ computer vision๊ณผ NLP ๋ ์์ญ์ ์ฐจ์ด ๋๋ฌธ์, Transformer์ computer vision์ ์ ์ฉ์ํค๋๋ฐ ๋ง์ ๋ฌธ์ ๊ฐ ์์๋ค. ์ด๋ฌํ ์ฐจ์ด์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ representation์ด Shifted Windows์ ํจ๊ป ๊ณ์ฐ๋๋ hierarchical Transformer์ ์ ์ํ์๋ค. shifted windowing ๊ธฐ๋ฒ์..
Paper Reading ๐/Computer Vision
The overview of this paper Transformer architecture๋ NLP ๋ถ์ผ์์ ๋งค์ฐ ๊ถ์์ ์ด๋ค. ํ์ง๋ง, ์ด๋ฅผ computer vision์ ์ฌ์ฉํ๋ ์๋ ๊ทนํ ์ ํ๋์ด ์๋ค. convolutional network์ ์ฌ์ด์ attention์ ์ฌ์ฉํ๊ฑฐ๋, convolutional network์ ์ ๋ฐ์ ์ธ ๊ตฌ์ฑ์ ๋ฐ๊พธ๊ธด ํ์ง๋ง, ์ ๋ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ์ง๋ ์๋๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ CNN์ ์์กดํ ํ์ ์์ด image์ patch์ ์ง์ ์ ์ผ๋ก Transformer๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ฑฐ๋ํ ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์์ pre-train์ ํ๊ณ , ์ด๋ฏธ์ง ๋ฒค์น๋งํฌ์ ์ ์ฉํ ๊ฒฐ๊ณผ, Vision Transformer(ViT)๋ ๋์ฑ ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก..
Paper Reading ๐/Computer Vision
Table of Contents 1. Introduction 2. Grad-CAM 1. Introduction Grad-CAM์ Gradient-weighted Class Activation Mapping์ ์ฝ์๋ก, CNN์ ํตํด ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋๋ค์ ๊ทธ ๊ณผ์ ์ ๋ณผ ์ ์์ง๋ง, Grad-CAM์ ํ์ฉํ๋ฉด CNN์ ํ๋ ๊ณผ์ ์ ๋์ฑ ๋ช
๋ฐฑํ๊ณ ์์ธํ๊ฒ ์ ์ ์๋ค. Grad-CAM์ ์ด์ ์ ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ์๋ฌด๋ฐ ๊ตฌ์กฐ์ ๋ณํ์ ์ฌํ์ต ์์ด CNN์ ๋ค์ํ ๋ชจ๋ธ๋ค์ ์ ์ฉ์ด ๊ฐ๋ฅํ๋ค!! ์ด ๋
ผ๋ฌธ์์๋ Grad-CAM๊ณผ fine-grained visualization์ ๊ฒฐํฉํ์ฌ high-resolution class-discriminative visulaization์ ํ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ..
'Paper Reading ๐/Computer Vision' ์นดํ
๊ณ ๋ฆฌ์ ๊ธ ๋ชฉ๋ก
๋จ์ถํค
๋ด ๋ธ๋ก๊ทธ
๋ด ๋ธ๋ก๊ทธ - ๊ด๋ฆฌ์ ํ ์ ํ |
Q
Q
|
์ ๊ธ ์ฐ๊ธฐ |
W
W
|
๋ธ๋ก๊ทธ ๊ฒ์๊ธ
๊ธ ์์ (๊ถํ ์๋ ๊ฒฝ์ฐ) |
E
E
|
๋๊ธ ์์ญ์ผ๋ก ์ด๋ |
C
C
|
๋ชจ๋ ์์ญ
์ด ํ์ด์ง์ URL ๋ณต์ฌ |
S
S
|
๋งจ ์๋ก ์ด๋ |
T
T
|
ํฐ์คํ ๋ฆฌ ํ ์ด๋ |
H
H
|
๋จ์ถํค ์๋ด |
Shift + /
โง + /
|
* ๋จ์ถํค๋ ํ๊ธ/์๋ฌธ ๋์๋ฌธ์๋ก ์ด์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํฐ์คํ ๋ฆฌ ๊ธฐ๋ณธ ๋๋ฉ์ธ์์๋ง ๋์ํฉ๋๋ค.