The overview of this paper
Transformer architecture๋ NLP ๋ถ์ผ์์ ๋งค์ฐ ๊ถ์์ ์ด๋ค. ํ์ง๋ง, ์ด๋ฅผ computer vision์ ์ฌ์ฉํ๋ ์๋ ๊ทนํ ์ ํ๋์ด ์๋ค. convolutional network์ ์ฌ์ด์ attention์ ์ฌ์ฉํ๊ฑฐ๋, convolutional network์ ์ ๋ฐ์ ์ธ ๊ตฌ์ฑ์ ๋ฐ๊พธ๊ธด ํ์ง๋ง, ์ ๋ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ์ง๋ ์๋๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ CNN์ ์์กดํ ํ์ ์์ด image์ patch์ ์ง์ ์ ์ผ๋ก Transformer๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ฑฐ๋ํ ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์์ pre-train์ ํ๊ณ , ์ด๋ฏธ์ง ๋ฒค์น๋งํฌ์ ์ ์ฉํ ๊ฒฐ๊ณผ, Vision Transformer$($ViT$)$๋ ๋์ฑ ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก SoTA์ ๊ฒฌ์ค๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Method
2-1. Vision Transformer$($ViT$)$
2-2. Fine-tuning and Higher Resolution
3. Pre-training data requirements
1. introduction
Self-attention ๊ธฐ๋ฐ์ architecture์ธ, Transformer๋ NLP ๋ถ์ผ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด๋ค. Transformer์ ์ฃผ๋ ์ ๊ทผ๋ฒ์ ๊ฑฐ๋ํ text corpus์์ pre-train์ ํ๊ณ , ์์ task-specificํ ๋ฐ์ดํฐ์
์ ๋ํด fine-tuning์ ๊ฑฐ์น๋ค. Transformer์ ์ด๋ฌํ computational efficiency์ scalability ๋๋ถ์, ์ ๋ก์๋ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์์๋ค. ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์
์ ํฌ๊ธฐ๊ฐ ๋์ด๋จ์๋ ๋ถ๊ตฌํ๊ณ ์ฑ๋ฅ์ ์ ํ๋ ์์๋ค.
computer vision์์๋ ์์ง CNN์ด ์ฐ์ธํ๋ค. NLP์์์ ์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ด CNN-architecture์ self-attention์ ๊ฒฐํฉํ๊ธฐ ์ํด, convolution์ ์์ ๋์ฒดํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ด ์ ์ฉํ์๋ค. ์ด๋ ์ด๋ก ์ ์ผ๋ก ํจ์จ์ ์ด์ง๋ง, ํน๋ณํ๋ attention pattern ๋๋ฌธ์ ํ์ฌ์ ํ๋์จ์ด ๊ฐ์๊ธฐ์ ํจ๊ณผ์ ์ผ๋ก scalingํ ์ ์๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ๊ทธ๋์, large-scale์์์ image recognition์ ์์ง, ResNet๊ณผ ๊ฐ์ architecture๊ฐ SoTA๋ก ๋จ์์๋ ๊ฒ์ด๋ค.
NLP ๋ถ์ผ์์ Transformer์ ์ฑ๊ณต์ ์ธ scaling์ ์๊ฐ์ ๋ฐ์ ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ Transformer์ ํจ๊ป ์กฐ๊ธ์ ์์ ์ ๊ฑฐ์ณ์ image์ ์ง์ ์ ์ผ๋ก ์ ์ฉํด๋ณด์๋ค. ์ด๋ฅผ ์ํด, image๋ฅผ patch๋ก ๋ถํ ํ๊ณ , ์ด๋ฌํ patch๋ค์ ์ ํ ์๋ฒ ๋ฉ์ Transformer์ ์
๋ ฅ์ผ๋ก ์ฃผ์๋ค. image patch๋ค์ NLP ๋ถ์ผ์์ ์ฌ์ฉ๋๋ token๊ณผ ์ ์ฌํ๊ฒ ์ฌ์ฉ๋๋ค.
๊ฐ๋ ฅํ regularization ์์ด ImageNet ๊ฐ์ ์ค๊ฐ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์
์์ ํ๋ จํ ๋, ์ด๋ฌํ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ๋น์ทํ ResNet๋ณด๋ค ์กฐ๊ธ ๋ ๋ฎ์ ์ฑ๋ฅ์ ์ฐ์ถํ์๋ค. ์ด๊ฒ์ ์์ํ๋ ๊ฒ๋ณด๋ค ์ค๋ง์ค๋ฌ์ด ๊ฒฐ๊ณผ์ผ ์ ์์ง๋ง, Transformer๋ CNN์ ๋นํด inductive bias์ ์๊ฐ ๋ถ์กฑํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ถฉ๋ถํ์ง ์์ ์์ ๋ฐ์ดํฐ์์๋ ์ generalizeํ ์ ์๋ค.
์ด๋ฌํ ViT๋ ์ฌ๋ฌ SoTA๋ค์ ๊ฒฌ์ค๋งํ ์ฑ๋ฅ์ ๋ด๊ฑฐ๋, ๋๋ก๋ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
2. Method
๋ชจ๋ธ์ ๋์์ธ์์, ๋ ผ๋ฌธ์์๋ ์ต๋ํ ๊ธฐ์กด์ Transformer๋ฅผ ๋ฐ๋ฅด๊ณ ์ ํ์๋ค. ์ด๋ ๊ฒ ๊ฐ๋จํ ์ ์ ์ ์ฅ์ ์ scalable๋ Transformer architecture์ ์ฌ์ฉํจ์ผ๋ก์จ ํจ์จ์ ์ธ ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๋ค. ๋ค์์ ViT์ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ์ด๋ค.

2-1. Vision Transformer$($ViT$)$
์์ ๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ๊ฐ์๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ธฐ์กด์ Transformer๊ฐ token embedding์ 1์ฐจ์์ sequence๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. 2์ฐจ์์ image๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ image $\textbf{x} \in \mathbb{R}^{H \times W \times C}$๋ฅผ ๋ฉ์ํด์ง patch $\textbf{x}_{p}$์ผ๋ก reshapeํ๋ค. ์ฌ๊ธฐ์ $(H,W)$๋ ๊ธฐ์กด์ ์ด๋ฏธ์ง์ resolution์ด๊ณ , $C$๋ ์ฑ๋์ ์์ด๊ณ , $(P,P)$๋ ๊ฐ ์ด๋ฏธ์ง ํจ์น์ resolution์ด๊ณ , $N=HW/P^{2}$์ผ๋ก ๊ฒฐ๊ณผ์ ํจ์น ์๋ก, ์ด๊ฒ์ Transformer์ ์ํ ํจ๊ณผ์ ์ธ ์
๋ ฅ ์ํ์ค์ ๊ธธ์ด๋ก ์ฌ๊ฒจ์ง๋ค. Transformer๋ ๋ณํจ์๋ ์ ์ฌ์ ์ธ ๋ฒกํฐ์ ํฌ๊ธฐ์ธ $D$๋ฅผ ๋ชจ๋ ๋ ์ด์ด์ ๋ํด์ ์ฌ์ฉํด์, ๋
ผ๋ฌธ์์๋ patch๋ฅผ ๋ฉ์ํ๊ฒ ๋ง๋ค๊ณ , ํ์ต ๊ฐ๋ฅํ ์ ํ ํ๋ก์ ์
๊ณผ ํจ๊ป ์ฐจ์ $D$์ ๋งคํํ๋ค. ๋
ผ๋ฌธ์์๋ ์ด ๊ณผ์ ์ ํตํด ์์ฑ๋ ์ถ๋ ฅ์ patch embedding์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
BERT์ [class] ํ ํฐ๊ณผ ์ ์ฌํ๊ฒ, Transformer encoder์ ์ถ๋ ฅ ์ํ$(z^{0}_{L})$๊ฐ ์ด๋ฏธ์ง ํํ $y$ ์ญํ ์ ํ๋ ์๋ฒ ๋๋ ํจ์น ์ํ์ค $(z^{0}_{0}=\textbf{x}_{class})$์ ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ์ ์ถ๊ฐํ๋ค $($์์ 4$)$. pre-training๊ณผ fine-tuning ์ค์, classification head๋ $\textbf{z}^{0}_{L}$์ ๋ถ์ฐฉ๋๋ค. classification head๋ pre-training์์ MLP์ ํ๋์ hidden layer์ fine-tuning์์ ํ๋์ ์ ํ ๋ ์ด์ด๋ก๋ถํฐ ์์ฉ๋๋ค.
Position embedding์ positional ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด patch embedding์ ์ถ๊ฐ๋๋ค. ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ ํ์ต ๊ฐ๋ฅํ 1์ฐจ์ position embedding์ ์ฌ์ฉํ๋๋ฐ, ์๋ํ๋ฉด ๋
ผ๋ฌธ์์๋ ๋์ฑ ๊ฐ์ ๋ 2D-aware position embedding์ ์ฌ์ฉํจ์ผ๋ก์จ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ํ์ธํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๊ฒฐ๊ณผ ์ํ์ค๋ ์ธ์ฝ๋์ ์
๋ ฅ์ผ๋ก ์ฌ๊ฒจ์ก๋ค.
Transformer์ ์ธ์ฝ๋๋ multihead self-attention๊ณผ MLP block์ด ๋ฒ๊ฐ์ ๋ํ๋๋ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์๋ค. Layer Normalization$($LN$)$์ ๋ชจ๋ ๋ธ๋ก์ ์ด์ ์ ์ ์ฉ๋์๊ณ , residual connection์ด ๋ชจ๋ ๋ธ๋ก ์ดํ์ ์ ์ฉ๋์๋ค $($์์ 2, 3$)$. MLP๋ ๋ ๊ฐ์ ๋น์ ํ์ฑ GELU๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋ค์์ ViT์ ๊ตฌ์กฐ ์์์ด๋ค.

inductive bias
Vision Transformer๋ CNN์ ๋นํด ๋์ฑ ์ ์ image-specific inductive bias๋ฅผ ๊ฐ์ง๊ณ ์๋ค. CNN์์๋, ์ง์ญ์ฑ๊ณผ 2์ฐจ์ ์ด์ ๊ตฌ์กฐ ๋ฐ ๋ณํ ๋ฑ๊ฐ๊ฐ ์ ์ฒด ๋ชจ๋ธ์ ๊ฐ ๊ณ์ธต์ ์ ์ฉ๋๋ค. ViT์์๋, ์ค์ง MLP layer๊ฐ ์ง์ญ์ ์ด๊ณ , ๋ณํ ๋ฑ๊ฐํ์ง๋ง, self-attention์ globalํ๋ค. 2์ฐจ์ ์ด์ ๊ตฌ์กฐ๋ ๋งค์ฐ ๋๋ฌผ๊ฒ ์ฌ์ฉ๋๋ค. ๋ชจ๋ธ ์์ ์์, ์ด๋ฏธ์ง๋ฅผ ํจ์น๋ก ์๋ฅด๊ณ , fine-tuning ์๊ฐ์ ๋ค๋ฅธ ํด์๋์ ์ด๋ฏธ์ง์ ๋ํ positional embedding์ ์กฐ์ ํ๋ค. ๋ค๋ฅธ ๊ฒ๋ณด๋ค๋, ์ด๊ธฐ์๋ position embedding์ด patch์ 2์ฐจ์ position์ ๋ํด ์ด๋ ํ ์ ๋ณด๋ฅผ ์ ๋ฌํ์ง ์๊ณ , patch๊ฐ์ ๋ชจ๋ spatial relation์ ๋ฐ๋ฐ๋ฅ์์๋ถํฐ ํ์ต๋์ด์ผ ํ๋ค.
Hybrid Architecture
ํฌ๊ธฐ์ ์ด๋ฏธ์ง patch์ ๋ํ ๋์์ผ๋ก, ์
๋ ฅ ์ํ์ค๋ CNN์ ํผ์ณ๋งต์ผ๋ก๋ถํฐ ํ์ฑ๋ ์ ์๋ค. ์ด๋ฌํ hybrid model์์๋, patch embedding projection $\textbf{E}$๊ฐ CNN์ ํผ์ณ๋งต์ผ๋ก๋ถํฐ ๋ฝ์๋ธ patch์ ๋ํด ์ ์ฉ๋๋ค $($์์ 1$)$. ํน์ํ ๊ฒฝ์ฐ๋ก ํจ์น์ ๊ณต๊ฐ ํฌ๊ธฐ๋ 1x1์ผ ์ ์๋ค. ์ฆ, ๋จ์ํ ํผ์ณ๋งต์ spatial dimension์ ํ๋ฉดํํ๊ณ Transformer dimenstion์ ํฌ์ํ์ฌ ์
๋ ฅ ์ํ์ค๋ฅผ ์ป๋๋ค. ๋ถ๋ฅ ์
๋ ฅ embedding๊ณผ position embedding์ ์์์ ์ธ๊ธ๋ ๊ฒ์ฒ๋ผ ์ถ๊ฐ๋๋ค.
2-2. Fine-tuning and Higher Resolution
๋ณดํต, ViT๋ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์
์์ ํ์ต๋๊ณ , ์์ downstream task์ fine-tuning ๋๋ค. ์ด๋ฅผ ์ํด, ๋
ผ๋ฌธ์์๋ pre-trained prediction head๋ฅผ ์ ๊ฑฐํ๊ณ , zero-initialized $D \times K$ feedforward layer๋ฅผ ๋ถ์๋ค. ์ฌ๊ธฐ์ $K$๋ downstream class์ ์์ด๋ค. ์ด๊ฒ์ pre-training ํ๋ ๊ฒ๋ณด๋ค higher resolution์์ fine-tuning ํ๋ ๊ฒ์ด ๋ ์ ์ตํ๋ค๋ ๊ฒ์ ์์ฃผ ๋ณด์ฌ์ค๋ค. higher resolution์ image๋ฅผ feedํ ๋, ๋
ผ๋ฌธ์์๋ patch์ ํฌ๊ธฐ๋ฅผ ๋๊ฐ์ด ์ ์งํ์๋๋ฐ, ์ด๊ฒ์ ๋์ฑ ํจ๊ณผ์ ์ธ ์ํ์ค ๊ธธ์ด๋ฅผ ์ป์ ์ ์๊ฒ ํด์คฌ๋ค. Vision Transformer๋ ์์์ ์ํ์ค ๊ฑฐ๋ฆฌ๋ฅผ ๋ค๋ฃฐ ์ ์์ง๋ง, pre-trained position embedding์ ๋ ์ด์ ์๋ฏธ๊ฐ ์์ ์๋ ์๋ค. ๋ฐ๋ผ์ ์๋ณธ ์ด๋ฏธ์ง์ ์์น์ ๋ฐ๋ผ pre-trained๋ position embedding์ 2D ๋ณด๊ฐ์ ์ํํฉ๋๋ค. ์ด resolution ์กฐ์ ๋ฐ patch ์ถ์ถ์ ์ด๋ฏธ์ง์ 2์ฐจ์ ๊ตฌ์กฐ์ ๋ํ inductive bias๊ฐ ์๋์ผ๋ก Vision Transformer์ ์ฃผ์
๋๋ ์ ์ผํ ์ง์ ์ด๋ค.
Vision Transformer๋ CNN๊ณผ ๋ฌ๋ฆฌ ๋ง์ pre-training์ ์๊ตฌํ๋ค. ์๋ํ๋ฉด, CNN๊ณผ ๋ฌ๋ฆฌ Vision Transformer๋ inductive bias๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค. CNN์ image-specificํ inductive bias๊ฐ ๋ง์ด ์์ด์ ๊ตณ์ด pre-training์ ํด์ผํ ํ์๊ฐ ์๋ค. ํ์ง๋ง, Transformer๋ modality๊ฐ ๋ฐ์ด๋๊ธฐ ๋๋ฌธ์ inductive bias๊ฐ ๋ถ์คํด์ pre-training์ด ํ์ํ๋ค.
3. Pre-training data requirements
Vision Transformer๋ ๊ฑฐ๋ํ JFT-300M ๋ฐ์ดํฐ์ ์์ pre-train๋ ๋, ์ ์ํ๋์๋ค. ResNet๋ณด๋ค ์๊ฐ์ inductive bias๊ฐ ์ ๋ค๋ฉด ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ ์ผ๋ง๋ ์ค์ํ ๊น? ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ง์ ์คํ์ ์งํํ์๋ค.
์ฒซ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ ViT ๋ชจ๋ธ์ ์ฆ๊ฐ๋ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด์ pre-trainํ์๋ค. ๋ ์์ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ weight decay, dropout, label smoothing ์ด๋ ๊ฒ ์ธ ๊ฐ์ ์ผ๋ฐ์ ์ธ regularization parameter์ optimizeํ์๋ค. ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ์ ์์ pre-train์ ์งํํ์์ ๋, ViT-Base ๋ชจ๋ธ์ ๋นํด ImageNet๊ณผ ViT-Large ๋ชจ๋ธ์ regularization์๋ ๋ถ๊ตฌํ๊ณ ๋ค์ณ์ง ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ImageNet-21k์ pre-training๊ณผ ํจ๊ป, ์ด๋ค์ ์ฑ๋ฅ์ ๋น์ทํ๋ค. ์ค์ง JFT-300M๊ณผ ํจ๊ป ํ์ ๋, larger model์ ๋ชจ๋ ์ด์ต์ ๋ณผ ์ ์์๋ค.
๋ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ model์ full JFT-300M ๋ฟ๋ง ์๋๋ผ ๋๋คํ ์๋ธ์ 9M, 30M, 90M์ผ๋ก ํ์ตํ์๋ค. ๋ ผ๋ฌธ์์๋ smaller ๋ฐ์ดํฐ์ ์ ๋ํด์ ์ถ๊ฐ์ ์ธ regularization์ ์ํํ์ง ์๊ณ , ๋ชจ๋ ์ธํ ์ ๋ํด ๋๊ฐ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด๋ฐ ๋ฐฉ๋ฒ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ๊ณ ์ ๋ชจ๋ธ ์์ฑ์ ํ๊ฐํ๊ณ ์ ๊ทํ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ์ง ์์๋ค. ํ์ง๋ง, early-stopping์ ์ฌ์ฉํ๋ฉด ํ๋ จ์์ ์ต๊ณ ์ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๋ณด์ฌ์คฌ๋ค.
ViT์ smaller dataset์์ overfitting์ด ๋๋ค. ์ ์ ๋ฐ์ดํฐ์์๋ CNN์ inductive bias๊ฐ ๋์ฑ ์ ์ฉํ์๊ณ , ๋ฐ๋ฉด์ ๋ง์ ๋ฐ์ดํฐ์์๋ Transformer์ฒ๋ผ relevant pattern์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ํจ๊ณผ์ ์ด๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/2010.11929
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep
arxiv.org
'Paper Reading ๐ > Computer Vision' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
The overview of this paper
Transformer architecture๋ NLP ๋ถ์ผ์์ ๋งค์ฐ ๊ถ์์ ์ด๋ค. ํ์ง๋ง, ์ด๋ฅผ computer vision์ ์ฌ์ฉํ๋ ์๋ ๊ทนํ ์ ํ๋์ด ์๋ค. convolutional network์ ์ฌ์ด์ attention์ ์ฌ์ฉํ๊ฑฐ๋, convolutional network์ ์ ๋ฐ์ ์ธ ๊ตฌ์ฑ์ ๋ฐ๊พธ๊ธด ํ์ง๋ง, ์ ๋ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ์ง๋ ์๋๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ CNN์ ์์กดํ ํ์ ์์ด image์ patch์ ์ง์ ์ ์ผ๋ก Transformer๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ฑฐ๋ํ ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์์ pre-train์ ํ๊ณ , ์ด๋ฏธ์ง ๋ฒค์น๋งํฌ์ ์ ์ฉํ ๊ฒฐ๊ณผ, Vision Transformer$($ViT$)$๋ ๋์ฑ ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก SoTA์ ๊ฒฌ์ค๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Method
2-1. Vision Transformer$($ViT$)$
2-2. Fine-tuning and Higher Resolution
3. Pre-training data requirements
1. introduction
Self-attention ๊ธฐ๋ฐ์ architecture์ธ, Transformer๋ NLP ๋ถ์ผ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด๋ค. Transformer์ ์ฃผ๋ ์ ๊ทผ๋ฒ์ ๊ฑฐ๋ํ text corpus์์ pre-train์ ํ๊ณ , ์์ task-specificํ ๋ฐ์ดํฐ์
์ ๋ํด fine-tuning์ ๊ฑฐ์น๋ค. Transformer์ ์ด๋ฌํ computational efficiency์ scalability ๋๋ถ์, ์ ๋ก์๋ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์์๋ค. ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์
์ ํฌ๊ธฐ๊ฐ ๋์ด๋จ์๋ ๋ถ๊ตฌํ๊ณ ์ฑ๋ฅ์ ์ ํ๋ ์์๋ค.
computer vision์์๋ ์์ง CNN์ด ์ฐ์ธํ๋ค. NLP์์์ ์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ด CNN-architecture์ self-attention์ ๊ฒฐํฉํ๊ธฐ ์ํด, convolution์ ์์ ๋์ฒดํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ด ์ ์ฉํ์๋ค. ์ด๋ ์ด๋ก ์ ์ผ๋ก ํจ์จ์ ์ด์ง๋ง, ํน๋ณํ๋ attention pattern ๋๋ฌธ์ ํ์ฌ์ ํ๋์จ์ด ๊ฐ์๊ธฐ์ ํจ๊ณผ์ ์ผ๋ก scalingํ ์ ์๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ๊ทธ๋์, large-scale์์์ image recognition์ ์์ง, ResNet๊ณผ ๊ฐ์ architecture๊ฐ SoTA๋ก ๋จ์์๋ ๊ฒ์ด๋ค.
NLP ๋ถ์ผ์์ Transformer์ ์ฑ๊ณต์ ์ธ scaling์ ์๊ฐ์ ๋ฐ์ ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ Transformer์ ํจ๊ป ์กฐ๊ธ์ ์์ ์ ๊ฑฐ์ณ์ image์ ์ง์ ์ ์ผ๋ก ์ ์ฉํด๋ณด์๋ค. ์ด๋ฅผ ์ํด, image๋ฅผ patch๋ก ๋ถํ ํ๊ณ , ์ด๋ฌํ patch๋ค์ ์ ํ ์๋ฒ ๋ฉ์ Transformer์ ์
๋ ฅ์ผ๋ก ์ฃผ์๋ค. image patch๋ค์ NLP ๋ถ์ผ์์ ์ฌ์ฉ๋๋ token๊ณผ ์ ์ฌํ๊ฒ ์ฌ์ฉ๋๋ค.
๊ฐ๋ ฅํ regularization ์์ด ImageNet ๊ฐ์ ์ค๊ฐ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์
์์ ํ๋ จํ ๋, ์ด๋ฌํ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ๋น์ทํ ResNet๋ณด๋ค ์กฐ๊ธ ๋ ๋ฎ์ ์ฑ๋ฅ์ ์ฐ์ถํ์๋ค. ์ด๊ฒ์ ์์ํ๋ ๊ฒ๋ณด๋ค ์ค๋ง์ค๋ฌ์ด ๊ฒฐ๊ณผ์ผ ์ ์์ง๋ง, Transformer๋ CNN์ ๋นํด inductive bias์ ์๊ฐ ๋ถ์กฑํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ถฉ๋ถํ์ง ์์ ์์ ๋ฐ์ดํฐ์์๋ ์ generalizeํ ์ ์๋ค.
์ด๋ฌํ ViT๋ ์ฌ๋ฌ SoTA๋ค์ ๊ฒฌ์ค๋งํ ์ฑ๋ฅ์ ๋ด๊ฑฐ๋, ๋๋ก๋ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
2. Method
๋ชจ๋ธ์ ๋์์ธ์์, ๋ ผ๋ฌธ์์๋ ์ต๋ํ ๊ธฐ์กด์ Transformer๋ฅผ ๋ฐ๋ฅด๊ณ ์ ํ์๋ค. ์ด๋ ๊ฒ ๊ฐ๋จํ ์ ์ ์ ์ฅ์ ์ scalable๋ Transformer architecture์ ์ฌ์ฉํจ์ผ๋ก์จ ํจ์จ์ ์ธ ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๋ค. ๋ค์์ ViT์ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ์ด๋ค.

2-1. Vision Transformer$($ViT$)$
์์ ๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ๊ฐ์๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ธฐ์กด์ Transformer๊ฐ token embedding์ 1์ฐจ์์ sequence๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. 2์ฐจ์์ image๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ image $\textbf{x} \in \mathbb{R}^{H \times W \times C}$๋ฅผ ๋ฉ์ํด์ง patch $\textbf{x}_{p}$์ผ๋ก reshapeํ๋ค. ์ฌ๊ธฐ์ $(H,W)$๋ ๊ธฐ์กด์ ์ด๋ฏธ์ง์ resolution์ด๊ณ , $C$๋ ์ฑ๋์ ์์ด๊ณ , $(P,P)$๋ ๊ฐ ์ด๋ฏธ์ง ํจ์น์ resolution์ด๊ณ , $N=HW/P^{2}$์ผ๋ก ๊ฒฐ๊ณผ์ ํจ์น ์๋ก, ์ด๊ฒ์ Transformer์ ์ํ ํจ๊ณผ์ ์ธ ์
๋ ฅ ์ํ์ค์ ๊ธธ์ด๋ก ์ฌ๊ฒจ์ง๋ค. Transformer๋ ๋ณํจ์๋ ์ ์ฌ์ ์ธ ๋ฒกํฐ์ ํฌ๊ธฐ์ธ $D$๋ฅผ ๋ชจ๋ ๋ ์ด์ด์ ๋ํด์ ์ฌ์ฉํด์, ๋
ผ๋ฌธ์์๋ patch๋ฅผ ๋ฉ์ํ๊ฒ ๋ง๋ค๊ณ , ํ์ต ๊ฐ๋ฅํ ์ ํ ํ๋ก์ ์
๊ณผ ํจ๊ป ์ฐจ์ $D$์ ๋งคํํ๋ค. ๋
ผ๋ฌธ์์๋ ์ด ๊ณผ์ ์ ํตํด ์์ฑ๋ ์ถ๋ ฅ์ patch embedding์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
BERT์ [class] ํ ํฐ๊ณผ ์ ์ฌํ๊ฒ, Transformer encoder์ ์ถ๋ ฅ ์ํ$(z^{0}_{L})$๊ฐ ์ด๋ฏธ์ง ํํ $y$ ์ญํ ์ ํ๋ ์๋ฒ ๋๋ ํจ์น ์ํ์ค $(z^{0}_{0}=\textbf{x}_{class})$์ ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ์ ์ถ๊ฐํ๋ค $($์์ 4$)$. pre-training๊ณผ fine-tuning ์ค์, classification head๋ $\textbf{z}^{0}_{L}$์ ๋ถ์ฐฉ๋๋ค. classification head๋ pre-training์์ MLP์ ํ๋์ hidden layer์ fine-tuning์์ ํ๋์ ์ ํ ๋ ์ด์ด๋ก๋ถํฐ ์์ฉ๋๋ค.
Position embedding์ positional ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด patch embedding์ ์ถ๊ฐ๋๋ค. ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ ํ์ต ๊ฐ๋ฅํ 1์ฐจ์ position embedding์ ์ฌ์ฉํ๋๋ฐ, ์๋ํ๋ฉด ๋
ผ๋ฌธ์์๋ ๋์ฑ ๊ฐ์ ๋ 2D-aware position embedding์ ์ฌ์ฉํจ์ผ๋ก์จ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ํ์ธํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๊ฒฐ๊ณผ ์ํ์ค๋ ์ธ์ฝ๋์ ์
๋ ฅ์ผ๋ก ์ฌ๊ฒจ์ก๋ค.
Transformer์ ์ธ์ฝ๋๋ multihead self-attention๊ณผ MLP block์ด ๋ฒ๊ฐ์ ๋ํ๋๋ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์๋ค. Layer Normalization$($LN$)$์ ๋ชจ๋ ๋ธ๋ก์ ์ด์ ์ ์ ์ฉ๋์๊ณ , residual connection์ด ๋ชจ๋ ๋ธ๋ก ์ดํ์ ์ ์ฉ๋์๋ค $($์์ 2, 3$)$. MLP๋ ๋ ๊ฐ์ ๋น์ ํ์ฑ GELU๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋ค์์ ViT์ ๊ตฌ์กฐ ์์์ด๋ค.

inductive bias
Vision Transformer๋ CNN์ ๋นํด ๋์ฑ ์ ์ image-specific inductive bias๋ฅผ ๊ฐ์ง๊ณ ์๋ค. CNN์์๋, ์ง์ญ์ฑ๊ณผ 2์ฐจ์ ์ด์ ๊ตฌ์กฐ ๋ฐ ๋ณํ ๋ฑ๊ฐ๊ฐ ์ ์ฒด ๋ชจ๋ธ์ ๊ฐ ๊ณ์ธต์ ์ ์ฉ๋๋ค. ViT์์๋, ์ค์ง MLP layer๊ฐ ์ง์ญ์ ์ด๊ณ , ๋ณํ ๋ฑ๊ฐํ์ง๋ง, self-attention์ globalํ๋ค. 2์ฐจ์ ์ด์ ๊ตฌ์กฐ๋ ๋งค์ฐ ๋๋ฌผ๊ฒ ์ฌ์ฉ๋๋ค. ๋ชจ๋ธ ์์ ์์, ์ด๋ฏธ์ง๋ฅผ ํจ์น๋ก ์๋ฅด๊ณ , fine-tuning ์๊ฐ์ ๋ค๋ฅธ ํด์๋์ ์ด๋ฏธ์ง์ ๋ํ positional embedding์ ์กฐ์ ํ๋ค. ๋ค๋ฅธ ๊ฒ๋ณด๋ค๋, ์ด๊ธฐ์๋ position embedding์ด patch์ 2์ฐจ์ position์ ๋ํด ์ด๋ ํ ์ ๋ณด๋ฅผ ์ ๋ฌํ์ง ์๊ณ , patch๊ฐ์ ๋ชจ๋ spatial relation์ ๋ฐ๋ฐ๋ฅ์์๋ถํฐ ํ์ต๋์ด์ผ ํ๋ค.
Hybrid Architecture
ํฌ๊ธฐ์ ์ด๋ฏธ์ง patch์ ๋ํ ๋์์ผ๋ก, ์
๋ ฅ ์ํ์ค๋ CNN์ ํผ์ณ๋งต์ผ๋ก๋ถํฐ ํ์ฑ๋ ์ ์๋ค. ์ด๋ฌํ hybrid model์์๋, patch embedding projection $\textbf{E}$๊ฐ CNN์ ํผ์ณ๋งต์ผ๋ก๋ถํฐ ๋ฝ์๋ธ patch์ ๋ํด ์ ์ฉ๋๋ค $($์์ 1$)$. ํน์ํ ๊ฒฝ์ฐ๋ก ํจ์น์ ๊ณต๊ฐ ํฌ๊ธฐ๋ 1x1์ผ ์ ์๋ค. ์ฆ, ๋จ์ํ ํผ์ณ๋งต์ spatial dimension์ ํ๋ฉดํํ๊ณ Transformer dimenstion์ ํฌ์ํ์ฌ ์
๋ ฅ ์ํ์ค๋ฅผ ์ป๋๋ค. ๋ถ๋ฅ ์
๋ ฅ embedding๊ณผ position embedding์ ์์์ ์ธ๊ธ๋ ๊ฒ์ฒ๋ผ ์ถ๊ฐ๋๋ค.
2-2. Fine-tuning and Higher Resolution
๋ณดํต, ViT๋ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์
์์ ํ์ต๋๊ณ , ์์ downstream task์ fine-tuning ๋๋ค. ์ด๋ฅผ ์ํด, ๋
ผ๋ฌธ์์๋ pre-trained prediction head๋ฅผ ์ ๊ฑฐํ๊ณ , zero-initialized $D \times K$ feedforward layer๋ฅผ ๋ถ์๋ค. ์ฌ๊ธฐ์ $K$๋ downstream class์ ์์ด๋ค. ์ด๊ฒ์ pre-training ํ๋ ๊ฒ๋ณด๋ค higher resolution์์ fine-tuning ํ๋ ๊ฒ์ด ๋ ์ ์ตํ๋ค๋ ๊ฒ์ ์์ฃผ ๋ณด์ฌ์ค๋ค. higher resolution์ image๋ฅผ feedํ ๋, ๋
ผ๋ฌธ์์๋ patch์ ํฌ๊ธฐ๋ฅผ ๋๊ฐ์ด ์ ์งํ์๋๋ฐ, ์ด๊ฒ์ ๋์ฑ ํจ๊ณผ์ ์ธ ์ํ์ค ๊ธธ์ด๋ฅผ ์ป์ ์ ์๊ฒ ํด์คฌ๋ค. Vision Transformer๋ ์์์ ์ํ์ค ๊ฑฐ๋ฆฌ๋ฅผ ๋ค๋ฃฐ ์ ์์ง๋ง, pre-trained position embedding์ ๋ ์ด์ ์๋ฏธ๊ฐ ์์ ์๋ ์๋ค. ๋ฐ๋ผ์ ์๋ณธ ์ด๋ฏธ์ง์ ์์น์ ๋ฐ๋ผ pre-trained๋ position embedding์ 2D ๋ณด๊ฐ์ ์ํํฉ๋๋ค. ์ด resolution ์กฐ์ ๋ฐ patch ์ถ์ถ์ ์ด๋ฏธ์ง์ 2์ฐจ์ ๊ตฌ์กฐ์ ๋ํ inductive bias๊ฐ ์๋์ผ๋ก Vision Transformer์ ์ฃผ์
๋๋ ์ ์ผํ ์ง์ ์ด๋ค.
Vision Transformer๋ CNN๊ณผ ๋ฌ๋ฆฌ ๋ง์ pre-training์ ์๊ตฌํ๋ค. ์๋ํ๋ฉด, CNN๊ณผ ๋ฌ๋ฆฌ Vision Transformer๋ inductive bias๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค. CNN์ image-specificํ inductive bias๊ฐ ๋ง์ด ์์ด์ ๊ตณ์ด pre-training์ ํด์ผํ ํ์๊ฐ ์๋ค. ํ์ง๋ง, Transformer๋ modality๊ฐ ๋ฐ์ด๋๊ธฐ ๋๋ฌธ์ inductive bias๊ฐ ๋ถ์คํด์ pre-training์ด ํ์ํ๋ค.
3. Pre-training data requirements
Vision Transformer๋ ๊ฑฐ๋ํ JFT-300M ๋ฐ์ดํฐ์ ์์ pre-train๋ ๋, ์ ์ํ๋์๋ค. ResNet๋ณด๋ค ์๊ฐ์ inductive bias๊ฐ ์ ๋ค๋ฉด ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ ์ผ๋ง๋ ์ค์ํ ๊น? ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ง์ ์คํ์ ์งํํ์๋ค.
์ฒซ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ ViT ๋ชจ๋ธ์ ์ฆ๊ฐ๋ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด์ pre-trainํ์๋ค. ๋ ์์ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ weight decay, dropout, label smoothing ์ด๋ ๊ฒ ์ธ ๊ฐ์ ์ผ๋ฐ์ ์ธ regularization parameter์ optimizeํ์๋ค. ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ์ ์์ pre-train์ ์งํํ์์ ๋, ViT-Base ๋ชจ๋ธ์ ๋นํด ImageNet๊ณผ ViT-Large ๋ชจ๋ธ์ regularization์๋ ๋ถ๊ตฌํ๊ณ ๋ค์ณ์ง ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ImageNet-21k์ pre-training๊ณผ ํจ๊ป, ์ด๋ค์ ์ฑ๋ฅ์ ๋น์ทํ๋ค. ์ค์ง JFT-300M๊ณผ ํจ๊ป ํ์ ๋, larger model์ ๋ชจ๋ ์ด์ต์ ๋ณผ ์ ์์๋ค.
๋ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ model์ full JFT-300M ๋ฟ๋ง ์๋๋ผ ๋๋คํ ์๋ธ์ 9M, 30M, 90M์ผ๋ก ํ์ตํ์๋ค. ๋ ผ๋ฌธ์์๋ smaller ๋ฐ์ดํฐ์ ์ ๋ํด์ ์ถ๊ฐ์ ์ธ regularization์ ์ํํ์ง ์๊ณ , ๋ชจ๋ ์ธํ ์ ๋ํด ๋๊ฐ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด๋ฐ ๋ฐฉ๋ฒ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ๊ณ ์ ๋ชจ๋ธ ์์ฑ์ ํ๊ฐํ๊ณ ์ ๊ทํ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ์ง ์์๋ค. ํ์ง๋ง, early-stopping์ ์ฌ์ฉํ๋ฉด ํ๋ จ์์ ์ต๊ณ ์ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๋ณด์ฌ์คฌ๋ค.
ViT์ smaller dataset์์ overfitting์ด ๋๋ค. ์ ์ ๋ฐ์ดํฐ์์๋ CNN์ inductive bias๊ฐ ๋์ฑ ์ ์ฉํ์๊ณ , ๋ฐ๋ฉด์ ๋ง์ ๋ฐ์ดํฐ์์๋ Transformer์ฒ๋ผ relevant pattern์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ํจ๊ณผ์ ์ด๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/2010.11929
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep
arxiv.org