The overview of this paper
Transformer architecture๋ NLP ๋ถ์ผ์์ ๋งค์ฐ ๊ถ์์ ์ด๋ค. ํ์ง๋ง, ์ด๋ฅผ computer vision์ ์ฌ์ฉํ๋ ์๋ ๊ทนํ ์ ํ๋์ด ์๋ค. convolutional network์ ์ฌ์ด์ attention์ ์ฌ์ฉํ๊ฑฐ๋, convolutional network์ ์ ๋ฐ์ ์ธ ๊ตฌ์ฑ์ ๋ฐ๊พธ๊ธด ํ์ง๋ง, ์ ๋ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ์ง๋ ์๋๋ค. ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ CNN์ ์์กดํ ํ์ ์์ด image์ patch์ ์ง์ ์ ์ผ๋ก Transformer๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ฑฐ๋ํ ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์์ pre-train์ ํ๊ณ , ์ด๋ฏธ์ง ๋ฒค์น๋งํฌ์ ์ ์ฉํ ๊ฒฐ๊ณผ, Vision Transformer$($ViT$)$๋ ๋์ฑ ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก SoTA์ ๊ฒฌ์ค๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Method
2-1. Vision Transformer$($ViT$)$
2-2. Fine-tuning and Higher Resolution
3. Pre-training data requirements
1. introduction
Self-attention ๊ธฐ๋ฐ์ architecture์ธ, Transformer๋ NLP ๋ถ์ผ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด๋ค. Transformer์ ์ฃผ๋ ์ ๊ทผ๋ฒ์ ๊ฑฐ๋ํ text corpus์์ pre-train์ ํ๊ณ , ์์ task-specificํ ๋ฐ์ดํฐ์
์ ๋ํด fine-tuning์ ๊ฑฐ์น๋ค. Transformer์ ์ด๋ฌํ computational efficiency์ scalability ๋๋ถ์, ์ ๋ก์๋ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์์๋ค. ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์
์ ํฌ๊ธฐ๊ฐ ๋์ด๋จ์๋ ๋ถ๊ตฌํ๊ณ ์ฑ๋ฅ์ ์ ํ๋ ์์๋ค.
computer vision์์๋ ์์ง CNN์ด ์ฐ์ธํ๋ค. NLP์์์ ์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ด CNN-architecture์ self-attention์ ๊ฒฐํฉํ๊ธฐ ์ํด, convolution์ ์์ ๋์ฒดํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ด ์ ์ฉํ์๋ค. ์ด๋ ์ด๋ก ์ ์ผ๋ก ํจ์จ์ ์ด์ง๋ง, ํน๋ณํ๋ attention pattern ๋๋ฌธ์ ํ์ฌ์ ํ๋์จ์ด ๊ฐ์๊ธฐ์ ํจ๊ณผ์ ์ผ๋ก scalingํ ์ ์๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ๊ทธ๋์, large-scale์์์ image recognition์ ์์ง, ResNet๊ณผ ๊ฐ์ architecture๊ฐ SoTA๋ก ๋จ์์๋ ๊ฒ์ด๋ค.
NLP ๋ถ์ผ์์ Transformer์ ์ฑ๊ณต์ ์ธ scaling์ ์๊ฐ์ ๋ฐ์ ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ Transformer์ ํจ๊ป ์กฐ๊ธ์ ์์ ์ ๊ฑฐ์ณ์ image์ ์ง์ ์ ์ผ๋ก ์ ์ฉํด๋ณด์๋ค. ์ด๋ฅผ ์ํด, image๋ฅผ patch๋ก ๋ถํ ํ๊ณ , ์ด๋ฌํ patch๋ค์ ์ ํ ์๋ฒ ๋ฉ์ Transformer์ ์
๋ ฅ์ผ๋ก ์ฃผ์๋ค. image patch๋ค์ NLP ๋ถ์ผ์์ ์ฌ์ฉ๋๋ token๊ณผ ์ ์ฌํ๊ฒ ์ฌ์ฉ๋๋ค.
๊ฐ๋ ฅํ regularization ์์ด ImageNet ๊ฐ์ ์ค๊ฐ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์
์์ ํ๋ จํ ๋, ์ด๋ฌํ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ๋น์ทํ ResNet๋ณด๋ค ์กฐ๊ธ ๋ ๋ฎ์ ์ฑ๋ฅ์ ์ฐ์ถํ์๋ค. ์ด๊ฒ์ ์์ํ๋ ๊ฒ๋ณด๋ค ์ค๋ง์ค๋ฌ์ด ๊ฒฐ๊ณผ์ผ ์ ์์ง๋ง, Transformer๋ CNN์ ๋นํด inductive bias์ ์๊ฐ ๋ถ์กฑํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ถฉ๋ถํ์ง ์์ ์์ ๋ฐ์ดํฐ์์๋ ์ generalizeํ ์ ์๋ค.
์ด๋ฌํ ViT๋ ์ฌ๋ฌ SoTA๋ค์ ๊ฒฌ์ค๋งํ ์ฑ๋ฅ์ ๋ด๊ฑฐ๋, ๋๋ก๋ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
2. Method
๋ชจ๋ธ์ ๋์์ธ์์, ๋ ผ๋ฌธ์์๋ ์ต๋ํ ๊ธฐ์กด์ Transformer๋ฅผ ๋ฐ๋ฅด๊ณ ์ ํ์๋ค. ์ด๋ ๊ฒ ๊ฐ๋จํ ์ ์ ์ ์ฅ์ ์ scalable๋ Transformer architecture์ ์ฌ์ฉํจ์ผ๋ก์จ ํจ์จ์ ์ธ ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๋ค. ๋ค์์ ViT์ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ์ด๋ค.
2-1. Vision Transformer$($ViT$)$
์์ ๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ๊ฐ์๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ธฐ์กด์ Transformer๊ฐ token embedding์ 1์ฐจ์์ sequence๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. 2์ฐจ์์ image๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ image $\textbf{x} \in \mathbb{R}^{H \times W \times C}$๋ฅผ ๋ฉ์ํด์ง patch $\textbf{x}_{p}$์ผ๋ก reshapeํ๋ค. ์ฌ๊ธฐ์ $(H,W)$๋ ๊ธฐ์กด์ ์ด๋ฏธ์ง์ resolution์ด๊ณ , $C$๋ ์ฑ๋์ ์์ด๊ณ , $(P,P)$๋ ๊ฐ ์ด๋ฏธ์ง ํจ์น์ resolution์ด๊ณ , $N=HW/P^{2}$์ผ๋ก ๊ฒฐ๊ณผ์ ํจ์น ์๋ก, ์ด๊ฒ์ Transformer์ ์ํ ํจ๊ณผ์ ์ธ ์
๋ ฅ ์ํ์ค์ ๊ธธ์ด๋ก ์ฌ๊ฒจ์ง๋ค. Transformer๋ ๋ณํจ์๋ ์ ์ฌ์ ์ธ ๋ฒกํฐ์ ํฌ๊ธฐ์ธ $D$๋ฅผ ๋ชจ๋ ๋ ์ด์ด์ ๋ํด์ ์ฌ์ฉํด์, ๋
ผ๋ฌธ์์๋ patch๋ฅผ ๋ฉ์ํ๊ฒ ๋ง๋ค๊ณ , ํ์ต ๊ฐ๋ฅํ ์ ํ ํ๋ก์ ์
๊ณผ ํจ๊ป ์ฐจ์ $D$์ ๋งคํํ๋ค. ๋
ผ๋ฌธ์์๋ ์ด ๊ณผ์ ์ ํตํด ์์ฑ๋ ์ถ๋ ฅ์ patch embedding์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
BERT์ [class] ํ ํฐ๊ณผ ์ ์ฌํ๊ฒ, Transformer encoder์ ์ถ๋ ฅ ์ํ$(z^{0}_{L})$๊ฐ ์ด๋ฏธ์ง ํํ $y$ ์ญํ ์ ํ๋ ์๋ฒ ๋๋ ํจ์น ์ํ์ค $(z^{0}_{0}=\textbf{x}_{class})$์ ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ์ ์ถ๊ฐํ๋ค $($์์ 4$)$. pre-training๊ณผ fine-tuning ์ค์, classification head๋ $\textbf{z}^{0}_{L}$์ ๋ถ์ฐฉ๋๋ค. classification head๋ pre-training์์ MLP์ ํ๋์ hidden layer์ fine-tuning์์ ํ๋์ ์ ํ ๋ ์ด์ด๋ก๋ถํฐ ์์ฉ๋๋ค.
Position embedding์ positional ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด patch embedding์ ์ถ๊ฐ๋๋ค. ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด์ ํ์ต ๊ฐ๋ฅํ 1์ฐจ์ position embedding์ ์ฌ์ฉํ๋๋ฐ, ์๋ํ๋ฉด ๋
ผ๋ฌธ์์๋ ๋์ฑ ๊ฐ์ ๋ 2D-aware position embedding์ ์ฌ์ฉํจ์ผ๋ก์จ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ํ์ธํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๊ฒฐ๊ณผ ์ํ์ค๋ ์ธ์ฝ๋์ ์
๋ ฅ์ผ๋ก ์ฌ๊ฒจ์ก๋ค.
Transformer์ ์ธ์ฝ๋๋ multihead self-attention๊ณผ MLP block์ด ๋ฒ๊ฐ์ ๋ํ๋๋ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์๋ค. Layer Normalization$($LN$)$์ ๋ชจ๋ ๋ธ๋ก์ ์ด์ ์ ์ ์ฉ๋์๊ณ , residual connection์ด ๋ชจ๋ ๋ธ๋ก ์ดํ์ ์ ์ฉ๋์๋ค $($์์ 2, 3$)$. MLP๋ ๋ ๊ฐ์ ๋น์ ํ์ฑ GELU๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋ค์์ ViT์ ๊ตฌ์กฐ ์์์ด๋ค.
inductive bias
Vision Transformer๋ CNN์ ๋นํด ๋์ฑ ์ ์ image-specific inductive bias๋ฅผ ๊ฐ์ง๊ณ ์๋ค. CNN์์๋, ์ง์ญ์ฑ๊ณผ 2์ฐจ์ ์ด์ ๊ตฌ์กฐ ๋ฐ ๋ณํ ๋ฑ๊ฐ๊ฐ ์ ์ฒด ๋ชจ๋ธ์ ๊ฐ ๊ณ์ธต์ ์ ์ฉ๋๋ค. ViT์์๋, ์ค์ง MLP layer๊ฐ ์ง์ญ์ ์ด๊ณ , ๋ณํ ๋ฑ๊ฐํ์ง๋ง, self-attention์ globalํ๋ค. 2์ฐจ์ ์ด์ ๊ตฌ์กฐ๋ ๋งค์ฐ ๋๋ฌผ๊ฒ ์ฌ์ฉ๋๋ค. ๋ชจ๋ธ ์์ ์์, ์ด๋ฏธ์ง๋ฅผ ํจ์น๋ก ์๋ฅด๊ณ , fine-tuning ์๊ฐ์ ๋ค๋ฅธ ํด์๋์ ์ด๋ฏธ์ง์ ๋ํ positional embedding์ ์กฐ์ ํ๋ค. ๋ค๋ฅธ ๊ฒ๋ณด๋ค๋, ์ด๊ธฐ์๋ position embedding์ด patch์ 2์ฐจ์ position์ ๋ํด ์ด๋ ํ ์ ๋ณด๋ฅผ ์ ๋ฌํ์ง ์๊ณ , patch๊ฐ์ ๋ชจ๋ spatial relation์ ๋ฐ๋ฐ๋ฅ์์๋ถํฐ ํ์ต๋์ด์ผ ํ๋ค.
Hybrid Architecture
ํฌ๊ธฐ์ ์ด๋ฏธ์ง patch์ ๋ํ ๋์์ผ๋ก, ์
๋ ฅ ์ํ์ค๋ CNN์ ํผ์ณ๋งต์ผ๋ก๋ถํฐ ํ์ฑ๋ ์ ์๋ค. ์ด๋ฌํ hybrid model์์๋, patch embedding projection $\textbf{E}$๊ฐ CNN์ ํผ์ณ๋งต์ผ๋ก๋ถํฐ ๋ฝ์๋ธ patch์ ๋ํด ์ ์ฉ๋๋ค $($์์ 1$)$. ํน์ํ ๊ฒฝ์ฐ๋ก ํจ์น์ ๊ณต๊ฐ ํฌ๊ธฐ๋ 1x1์ผ ์ ์๋ค. ์ฆ, ๋จ์ํ ํผ์ณ๋งต์ spatial dimension์ ํ๋ฉดํํ๊ณ Transformer dimenstion์ ํฌ์ํ์ฌ ์
๋ ฅ ์ํ์ค๋ฅผ ์ป๋๋ค. ๋ถ๋ฅ ์
๋ ฅ embedding๊ณผ position embedding์ ์์์ ์ธ๊ธ๋ ๊ฒ์ฒ๋ผ ์ถ๊ฐ๋๋ค.
2-2. Fine-tuning and Higher Resolution
๋ณดํต, ViT๋ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์
์์ ํ์ต๋๊ณ , ์์ downstream task์ fine-tuning ๋๋ค. ์ด๋ฅผ ์ํด, ๋
ผ๋ฌธ์์๋ pre-trained prediction head๋ฅผ ์ ๊ฑฐํ๊ณ , zero-initialized $D \times K$ feedforward layer๋ฅผ ๋ถ์๋ค. ์ฌ๊ธฐ์ $K$๋ downstream class์ ์์ด๋ค. ์ด๊ฒ์ pre-training ํ๋ ๊ฒ๋ณด๋ค higher resolution์์ fine-tuning ํ๋ ๊ฒ์ด ๋ ์ ์ตํ๋ค๋ ๊ฒ์ ์์ฃผ ๋ณด์ฌ์ค๋ค. higher resolution์ image๋ฅผ feedํ ๋, ๋
ผ๋ฌธ์์๋ patch์ ํฌ๊ธฐ๋ฅผ ๋๊ฐ์ด ์ ์งํ์๋๋ฐ, ์ด๊ฒ์ ๋์ฑ ํจ๊ณผ์ ์ธ ์ํ์ค ๊ธธ์ด๋ฅผ ์ป์ ์ ์๊ฒ ํด์คฌ๋ค. Vision Transformer๋ ์์์ ์ํ์ค ๊ฑฐ๋ฆฌ๋ฅผ ๋ค๋ฃฐ ์ ์์ง๋ง, pre-trained position embedding์ ๋ ์ด์ ์๋ฏธ๊ฐ ์์ ์๋ ์๋ค. ๋ฐ๋ผ์ ์๋ณธ ์ด๋ฏธ์ง์ ์์น์ ๋ฐ๋ผ pre-trained๋ position embedding์ 2D ๋ณด๊ฐ์ ์ํํฉ๋๋ค. ์ด resolution ์กฐ์ ๋ฐ patch ์ถ์ถ์ ์ด๋ฏธ์ง์ 2์ฐจ์ ๊ตฌ์กฐ์ ๋ํ inductive bias๊ฐ ์๋์ผ๋ก Vision Transformer์ ์ฃผ์
๋๋ ์ ์ผํ ์ง์ ์ด๋ค.
Vision Transformer๋ CNN๊ณผ ๋ฌ๋ฆฌ ๋ง์ pre-training์ ์๊ตฌํ๋ค. ์๋ํ๋ฉด, CNN๊ณผ ๋ฌ๋ฆฌ Vision Transformer๋ inductive bias๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค. CNN์ image-specificํ inductive bias๊ฐ ๋ง์ด ์์ด์ ๊ตณ์ด pre-training์ ํด์ผํ ํ์๊ฐ ์๋ค. ํ์ง๋ง, Transformer๋ modality๊ฐ ๋ฐ์ด๋๊ธฐ ๋๋ฌธ์ inductive bias๊ฐ ๋ถ์คํด์ pre-training์ด ํ์ํ๋ค.
3. Pre-training data requirements
Vision Transformer๋ ๊ฑฐ๋ํ JFT-300M ๋ฐ์ดํฐ์ ์์ pre-train๋ ๋, ์ ์ํ๋์๋ค. ResNet๋ณด๋ค ์๊ฐ์ inductive bias๊ฐ ์ ๋ค๋ฉด ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ ์ผ๋ง๋ ์ค์ํ ๊น? ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ง์ ์คํ์ ์งํํ์๋ค.
์ฒซ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ ViT ๋ชจ๋ธ์ ์ฆ๊ฐ๋ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด์ pre-trainํ์๋ค. ๋ ์์ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ weight decay, dropout, label smoothing ์ด๋ ๊ฒ ์ธ ๊ฐ์ ์ผ๋ฐ์ ์ธ regularization parameter์ optimizeํ์๋ค. ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ์ ์์ pre-train์ ์งํํ์์ ๋, ViT-Base ๋ชจ๋ธ์ ๋นํด ImageNet๊ณผ ViT-Large ๋ชจ๋ธ์ regularization์๋ ๋ถ๊ตฌํ๊ณ ๋ค์ณ์ง ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ImageNet-21k์ pre-training๊ณผ ํจ๊ป, ์ด๋ค์ ์ฑ๋ฅ์ ๋น์ทํ๋ค. ์ค์ง JFT-300M๊ณผ ํจ๊ป ํ์ ๋, larger model์ ๋ชจ๋ ์ด์ต์ ๋ณผ ์ ์์๋ค.
๋ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ model์ full JFT-300M ๋ฟ๋ง ์๋๋ผ ๋๋คํ ์๋ธ์ 9M, 30M, 90M์ผ๋ก ํ์ตํ์๋ค. ๋ ผ๋ฌธ์์๋ smaller ๋ฐ์ดํฐ์ ์ ๋ํด์ ์ถ๊ฐ์ ์ธ regularization์ ์ํํ์ง ์๊ณ , ๋ชจ๋ ์ธํ ์ ๋ํด ๋๊ฐ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด๋ฐ ๋ฐฉ๋ฒ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ๊ณ ์ ๋ชจ๋ธ ์์ฑ์ ํ๊ฐํ๊ณ ์ ๊ทํ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ์ง ์์๋ค. ํ์ง๋ง, early-stopping์ ์ฌ์ฉํ๋ฉด ํ๋ จ์์ ์ต๊ณ ์ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๋ณด์ฌ์คฌ๋ค.
ViT์ smaller dataset์์ overfitting์ด ๋๋ค. ์ ์ ๋ฐ์ดํฐ์์๋ CNN์ inductive bias๊ฐ ๋์ฑ ์ ์ฉํ์๊ณ , ๋ฐ๋ฉด์ ๋ง์ ๋ฐ์ดํฐ์์๋ Transformer์ฒ๋ผ relevant pattern์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ํจ๊ณผ์ ์ด๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/2010.11929
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep
arxiv.org