The overview of this paper
Transformer๋ NLP task์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ค. ํ์ง๋ง Transformer๋ฅผ ํ์ต์ํค๊ธฐ ์ํด, ๋๊ฒ ์ ์คํ๊ฒ ๋์์ธ๋ learning rate warm-up stage๋ฅผ ์ฌ์ฉํ๋ค. ์ด learning rate warm-up stage๋ ์ต์ข ์ฑ๋ฅ์ ๋ง์ ์ํฅ์ ๋ผ์น์ง๋ง, optimization์ ์๋๋ฅผ ์ ํ์ํค๊ณ ๋ ๋ง์ hyper-parameter tuning์ ํ์๋ก ํ๋ค. ์ด ๋ ผ๋ฌธ์์๋ learning rate warm-up stage๊ฐ ์ ํ์์ ์ธ์ง์ layer normalization$($LN$)$์ ์์น์ ๋ํ ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์ด๊ธฐํ ์ residual block ์ฌ์ด์ layer normalization์ ๋ฐฐ์นํ๋ ์๋ ์ค๊ณ๋ Post-LN Transformer์ ๊ฒฝ์ฐ ์ถ๋ ฅ ๋ ์ด์ด ๊ทผ์ฒ์ ๋งค๊ฐ๋ณ์์ ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ํฌ๋ค๋ ๊ฒ์ mean field ์ด๋ก ์ผ๋ก ์ฆ๋ช ํ์๋ค. ๋ฐ๋ผ์ ๊ทธ ๊ธฐ์ธ๊ธฐ์์ ํฐ learning rate๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํ์ต์ ๋ถ์์ ํ๊ฒ ๋ง๋ ๋ค. warm-up stage๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํผํ๋๋ฐ ๋งค์ฐ ์ค์ฉ์ ์ด๋ค. ๋ฐ๋๋ก, ๋ ผ๋ฌธ์ ์ด๋ก ์ layer normalization์ด residual block ์ฌ์ด์ ๋ค์ด๊ฐ๊ฒ ๋๋ฉด, ์ด๊ธฐํ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ ์ ์ฉ๋๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์ ์คํ์์๋ warm-up stage๊ฐ ์๋ Pre-LN Transformer์ด ์๋นํ ์ ์ ํ์ต ์๊ฐ๊ณผ hyper-parameter tuning์๋ ๋ถ๊ตฌํ๊ณ , baseline์ ํ์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Optimization for the Transformer
2-1. Transformer with Post-Layer Normalization
2-2. The learning rate warm-up stage
2-3. Understanding the Transformer at initialization
3. Experiment Results
1. Introduction
Transformer๋ NLP์์ ๊ฐ์ฅ ํํ๊ฒ ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง architecture์ด๋ค. LN์ Transformer์ ์ฑ๊ณต์ ์ค์ํ ์ญํ ์ ํ์๋ค. ๊ธฐ์กด์ Transformer๋ residual block ์ฌ์ด์ LN์ ๋๋๋ฐ, ์ด๋ฅผ Transformer with Post-Layer Normalization์ด๋ผ ํ๋ค. ์ด architecture๋ ์ฌ๋ฌ ๋ถ์ผ์ NLP task์์ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๊ทธ๋ฆฌ๊ณ Post-LN Transformer์ ๊ธฐ๋ฐ์ ๋ ๋น์ง๋ํ์ต pre-trained model์ ๋ค์ํ downstream task์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
์ด๋ฌํ ์ฑ๊ณต์๋ ๋ถ๊ตฌํ๊ณ , ์ฌ๋๋ค์ ๋ณดํต Post-LN Transformer๋ CNN์ด๋ seq2seq model๋ณด๋ค ๋์ฑ ์กฐ์ฌํ optimization์ ๋ค๋ฃฌ๋ค. ํนํ, model์ ์ฒ์๋ถํฐ ํ์ต์ํค๊ธฐ ์ํด์๋, ์ด๋ ํ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ์ ์ต์ ํ ๋ฐฉ์์ด๋ ๊ฐ์ learning rate warm-up stage๋ฅผ ํ์๋ก ํ๋ค. ์ด learning rate warm-up stage๋ ๋งค์ฐ ์์ learning rate์์ ์์ํด์ ์ด๋ฅผ pre-defined ๋ฐ๋ณต์๋ก pre-defined maximum value๊น์ง ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์ํจ๋ค. ์ด๋ฌํ warm-up stage๋ ์ต์ ํ์ ์๋๋ฅผ ๋ฆ์ถ ๋ฟ๋ง ์๋๋ผ ๋ ๋ง์ parameter tuning์ ํ์๋ก ํ๋ค.
์ด ๋ ผ๋ฌธ์์๋ learning rate warm-up stage๋ฅผ ์์ ํ๊ฒ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ์ฐพ์์ผ๋ก์จ ๋ฌธ์ ๋ฅผ ์ํํ์๋ค. ์ฒซ ๋ฒ์งธ ๋ฐ๋ณต์์ warm-up stage๊ฐ ๋ฐ์ํ๋ ๊ฒ์ฒ๋ผ, mean field ์ด๋ก ์ ์ฌ์ฉํด์ ์ด๊ธฐํ ์ํ์์ optimization ํ๋์ ์กฐ์ฌํ์๋ค. ๋ ผ๋ฌธ์ ์ด๋ก ์ ๋ถ์์ ์ํ๋ฉด, residual block ์ฌ์ด์ LN์ ๋ฐฐ์นํ ๋, output layer ๊ทผ์ฒ ํ๋ผ๋ฏธํฐ์ ์์๋๋ ๊ธฐ์ธ๊ธฐ๋ ํฌ๋ค. ๊ทธ๋์, warm-up stage ์์ด large learning rate๋ฅผ ์ด ํ๋ผ๋ฏธํฐ์ ์ฌ์ฉํ๋ ๊ฒ์ optimization ํ๋ก์ธ์ค๋ฅผ ๋ถ์์ ํ๊ฒ ๋ง๋ ๋ค. warm-up stage์ small learning rate๋ก model์ ํ์ต์ํค๋ ๊ฒ์ ์ด ๋ฌธ์ ๋ฅผ ์ค์ฉ์ ์ผ๋ก ํผํ ์ ์๊ฒ ๋์์ค๋ค. ๊ด๋ฒ์ํ ์คํ์ ๋ ผ๋ฌธ์ ์ด๋ก ์ ๋ฐ๊ฒฌ์ ์ง์งํ๋ ๋ด์ฉ์ ์ ๊ณตํด์ค๋ค.
๋ ผ๋ฌธ์ ์ด๋ก ์ LN์ด ๊ธฐ์ธ๊ธฐ scale์ ์กฐ์ ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ์ฐ๊ตฌ์๋ค์๊ฒ LN์ ์ด๋ค ์์น์ ๋์์ ๋ ์ ์ ์๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ป๊ฒ ํ๋์ง์ ๋ํ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์กฐ์ฌํ๊ณ ์ ํ๊ฒ ํ์๋ค. ํนํ, ๋ ผ๋ฌธ์์๋ ๋ค๋ฅธ ๋ณํ์ธ Pre-LN์ ์ฌ์ฉํ๋ Transformer๋ฅผ ์ฐ๊ตฌํ์๋ค. Pre-LN Transformer๋ residual connection ์์ LN์ ๋ฃ๊ณ , ์์ธก ์ ์ ์ถ๊ฐ์ ์ธ final-layer normalization์ ์ถ๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ธฐํ ์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ด๋ก ์ ์ผ๋ก๋ ๊ฒฝํ์ ์ผ๋ก Pre-LN Transformer์ ๋ํด ํญ๋ฐํ๊ฑฐ๋ ์ฌ๋ผ์ง์ง ์๊ณ ์ ๋์ํจ์ ๋ณด์ฌ์คฌ๋ค.
๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ชจ๋ task์์ learning rate warm-up stage๊ฐ ์์ ํ๊ฒ ์ ๊ฑฐ๋์๊ณ , hyper-parameter์ ์ ๋ํ ์ค์ด๋ค์๋ค. ๊ฒ๋ค๊ฐ, ๋ ผ๋ฌธ์์๋ Pre-LN Transformer์ ๋ํด loss decay๊ฐ ๋ ๋นจ๋๋ค. Pre-LN Transformer๋ ๋น์ทํ ์ต์ข ์ฑ๋ฅ์ ๋์ฑ ์ ์ ํ์ต ์๊ฐ์ ์ฌ์ฉํด์ ๋ฌ์ฑํ์๋ค. ์ด๋ large-scale model์ large-scale dataset์ ๋ํด ํ์ต์ํค๋ ๊ฒ์ ๋ํด ํนํ ์ค์ํ๋ค.
๋ ผ๋ฌธ์ Contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ Transformer ๋ณํ์ธ, Post-LN Transformer๊ณผ Pre-LN Transformer์ ๋ํด mean field ์ด๋ก ์ ์ฌ์ฉํด์ ์กฐ์ฌํ์๋ค. ์ด๊ธฐํ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ฐ๊ตฌํ์ฌ, ๋ ผ๋ฌธ์์๋ ์ learning rate warm-up stage๊ฐ Post-LN Transformer์ ํ์ต์ํฌ ๋ ํ์์ ์ธ์ง์ ๋ํ ์ฆ๊ฑฐ๋ฅผ ์ ๊ณตํ์๋ค.
- ๋ ผ๋ฌธ์์๋ ์ฒ์์ผ๋ก learning rate warm-up stage๊ฐ hyperparameter tuning์ ์ฝ๊ฒ ๋ง๋ค์ด์ฃผ๋ Pre-LN Transformer๋ฅผ ์ํด ์ ๊ฑฐ๋ ์ ์์์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก ์ ์ ํ learning rate scheduler๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ training time์ด ๊ด๋ฒ์ํ ์์ฉ์์ ํฌ๊ฒ ๊ฐ์๋ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
2. Optimization for the Transformer
2-1. Transformer with Post-LN Normalization
์ด ์น์ ์์๋ vanilla Transformer์ ๋ํด์ ์ค๋ช ํ๊ณ ์๋ค. Transformer์ ๋ํ ์์ธํ ์ค๋ช ์ด ๊ถ๊ธํ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
Transformer layer์์ sub layer, reidual connection, LN์ ์๋ก ๋ค๋ฅธ ์์๋ Transformer architecture์ ๋ณํ์ ์ผ๊ธฐํ๋ค. Transformer์ BERT๋ฅผ ์ํ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ด๊ณ ๊ฐ์ฅ ์ ๋ช ํ๊ฒ ์ฌ์ฉ๋๋ architecture๋ "self-attention$($FFN$)$ sub-layer โ residual connection โ layer normalization"์ ๋ฐ๋ฅธ๋ค. ์ด๊ฒ์ Post-LN with Transformer์ด๋ผ๊ณ ๋ถ๋ฅด๊ณ , ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ค.

Post-LN Transformer $x_{l, i}$๋ฅผ ์์น $i$์์ $l$๋ฒ์งธ Transformer layer์ ์ ๋ ฅ์ผ๋ก ํ๊ธฐํ๊ณ , ์ฌ๊ธฐ์ $x_{l, i}$๋ ์ฐจ์์ด $d, i = 1, 2, ..., n, l = 1, 2, ..., L$์ ์ค์ ๊ฐ ๋ฒกํฐ์ด๋ค. $n$์ sequence์ ๊ธธ์ด์ด๊ณ , $L$์ layer์ ์์ด๋ค. ์์ฑ๋๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ ์ผ๋ฐ์ ์ผ๋ก word embedding๊ณผ positional embedding์ ์กฐํฉ์ธ ์์น $i$์์ input embedding์ $x_{0, i}$๋ก ์ ์ํ๋ค. $l$๋ฒ์งธ ๋ ์ด์ด์ ์์ ๋ค์ด์๋ ๊ณ์ฐ์ ์ฌ๋ฌ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , ํ 1์ ์ผ์ชฝ์ฒ๋ผ ๋ค๋ฅธ ์คํ ์ input๊ณผ output์ ํํํ๊ธฐ ์ํด $x$์ super-script๋ฅผ ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ์ $W^{1,l}, W^{2,l}, b^{1,l}, b^{2,l}$์ $l$๋ฒ์งธ ๋ ์ด์ด์์ FFN sub-layer์ ํ๋ผ๋ฏธํฐ๋ค์ด๋ค.

2-2. The learning rate warm-up stage$($Post-LN Transformer$)$
๋ ผ๋ฌธ์์๋ Post-LN Transformer์ optimization์์ learning rate wam-up stage์ ๊ด์ฌ์ ๊ฐ์ก๋ค. learning rate๊ฐ ์๋์ ํฐ ๊ฐ์์ ์์ํด์ ๊ฐ์ํ๋ ๋ค๋ฅธ ๋ง์ architecture์ optimization๊ณผ ๋ฌ๋ฆฌ Post-LN Transformer์ learning rate warm-up stage๋ ๋งค์ฐ ์ค์ํด ๋ณด์ธ๋ค. ๋ ผ๋ฌธ์์๋ $t$๋ฒ์งธ ๋ฐ๋ณต์ learning rate๋ฅผ $lr(t)$๋ก ํ๊ธฐํ๊ณ , ํ์ต ์ค์ maximum learning rate๋ฅผ $lr_{max}$๋ก ํ๊ธฐํ์๋ค. pre-defined ํ์ ํ๋ ์ $T_{warmup}$์ด ์ฃผ์ด์ง๋ฉด, ์ฒซ ๋ฒ์งธ $T_{warmup}$ ๋ฐ๋ณต์ ์ํ learning rate scheduler๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
$lr(t) = \frac {t}{T_{warmup}}lr_{max}, t \leq T_{warmup}$
์ด warm-up stage ์ดํ์, learning rate๋ ์ผ๋ฐ์ ์ธ learning rate scheduler๋ก ์ค์ ๋๋ค. ๋ ผ๋ฌธ์์๋ Post-LN Transformer๋ฅผ ํ์ต์ํค๊ธฐ ์ํด learning rate warmup-stage๊ฐ ํ์์ ์ด๋ผ๋ ๊ฒ์ ์คํ์ ํตํด ๋ณด์ฌ์คฌ๋ค.
Results and discussions ๋ ผ๋ฌธ์์๋ validation loss์ BLEU score๋ฅผ ํ์ตํ๊ณ ๊ณ์ฐํ ๋ ๋งค epoch์ ๋ํด model checkpoint๋ฅผ ๊ธฐ๋กํ์๋ค. model์ ์ฑ๋ฅ์ ๊ทธ๋ฆผ 2$($a$)$์ ๊ทธ๋ฆผ 2$($b$)$์ ๋ํ๋์๋ค. $x$์ถ์ epoch์ ์์ด๊ณ , $y$์ถ์ BLEU score/validation loss์ด๋ค. "w/o warm-up"์ "warm-up stage๊ฐ ์์"์ ์๋ฏธํ๋ ๋ฐ๋ฉด์ "w/ warm-up"์ "warm-up stage์ ํจ๊ป"๋ฅผ ์๋ฏธํ๋ค.

์ฒซ ๋ฒ์งธ๋ก, ๋ optimizer์ ๋ํด learning rate warm-up stage๊ฐ ํ์์ ์ด๋ผ๋ ๊ฒ์ ์์๋๋ค. warm-up stage ์์ด Adam optimizer์ ํจ๊ป ํ์ต๋ ๋ชจ๋ธ์ BLEU score์์ 8.45๋ฅผ ๋ฌ์ฑํ์๋ค. ๋น๊ต์ ๋ฐ๋ฅด๋ฉด, warm-up stage๋ฅผ ์ฌ์ฉํด์ ํ์ตํ ๋ชจ๋ธ์ BLEU score์์ 34๋ฅผ ๋ฌ์ฑํ์๋ค. ์ด๋ฌํ ๊ฒฝํฅ์ validation loss curve์์๋ ํ์ธํ ์ ์์๋ค. SGD๋ฅผ ์ด์ฉํ์ฌ ํ์ต๋ ๋ชจ๋ธ์ Adam์ ๋นํด ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง, ์ด๋ฌํ ๊ฒฝํฅ์ ๋๊ฐ์ด ๋ํ๋ฌ๋ค. warm-up stage๋ฅผ ์ฌ์ฉํ์ง ์์ ๋ชจ๋ธ์ 15 epoch์ ํ์ต ๋ค์๋ BLEU score๊ฐ 0์ ์กฐ๊ธ ๋๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
๋ ๋ฒ์งธ๋ก, optimization ํ๋ก์ธ์ค๋ $T_{warmup}$์ ๊ฐ์ ๋ํด์ ๋ฏผ๊ฐํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด๊ฒ์ Post-LN Transformer์ ํ์ต์ํฌ ๋ $T_{warmup}$์ด ์ค์ํ hyper-parameter๋ผ๋ ์๋ฏธ์ด๋ค. ์๋ฅผ ๋ค์ด, $T_{warmup} = 500$์ผ๋ก ์ค์ ํ์ ๋, Adam์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ๊ฐ $lr_{max}=5e^{-4}$์ $1e^{-3}$์ ๋ํด BLEU score์์ ๊ฒจ์ฐ 31.16๊ณผ 2.77์ ์ ์๋ฅผ ๊ธฐ๋กํ์๋ค.
์ด๋ฌํ warm-up stage๋ ์ฌ๋ฌ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, warm-up stage์ ๊ตฌ์ฑ์ ์ต์ข ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ผ์น๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ๊ฐ๋ฐ์๋ค์ large-scale NLP task์ ๋ํด ๊ณ์ฐ์ ์ผ๋ก ๋น์ผ ์ ์คํ hyper-parameter tuning์ ํ์๋ก ํ๋ค. ๋ ๋ฒ์งธ๋ก, warm-up stage๋ optimization์ ์๋๋ฅผ ๋ฆ์ถ๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์กด์ optimization ์๊ณ ๋ฆฌ์ฆ์ ๋ณดํต ๋น ๋ฅธ ์๋ ด์ ์ํด ์ปค๋ค๋ learning rate์์ ์์ํ๋ค. ํ์ง๋ง, warm-up stage๋ฅผ ์ฌ์ฉํ ๋, learning rate๋ 0์์๋ถํฐ ์ ์ฐจ ์ฆ๊ฐํด ๋๊ฐ๋๋ฐ, ์ด๋ ํ์ต์ ๋นํจ์จ์ ์ผ๋ก ๋ง๋ ๋ค. ์ด์ ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, warm-up stage๋ ๋ชจ๋ธ ํ๋ จ์ ์ด๊ธฐ ๋จ๊ณ์์ Adam์ ๋ฐ๋์งํ์ง ์์ ์๋นํ ๋ถ์ฐ์ ์ค์ด๋ ๋ฐ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, warm-up stage๋ SGD์ ํ์ต ๋ํ ๋์์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ warm-up stage์ ์ด์ต์ ํน์ optimizer์ ๊ตญํ๋์ง ์์์ ๋ณด์ฌ์ค๋ค.
2-3. Understanding the Transformer at initialization$($Pre-LN Transformer$)$
๋ ผ๋ฌธ์์ ์ ์๋ Pre-LN Transformer๋ ๋ค์๊ณผ ๊ฐ๋ค.

์ด ๊ทธ๋ฆผ 3์ ์ดํด๋ณด๋ฉด Post-LN Transformer์ ๋ฌ๋ฆฌ LN์ ์์น๊ฐ ๋ณํด์๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๊ฒ์ด Post-LN Transformer์ Pre-LN Transformer์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ด๋ค.
Gradient of Weight Prameter ์ง๊ฐ์ ์ผ๋ก ๋๋ค ๋ณ์ $Z$๊ฐ $(\varepsilon /, \delta)$-bounded์ด๋ฉด, ๋์ ํ๋ฅ ๋ก ๊ทธ realization์ด ๊ธฐ๋์์ ๋๋ฌด ๋ฉ๋ฆฌ ๋จ์ด์ ธ์์ง ์์ ๊ฒ์ด๋ค. $L$๋ฒ์งธ ๋ ์ด์ด์์ Post-LN Transformer์ ๋ํ ๋ง์ง๋ง ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ์ ๊ธฐ์ธ๊ธฐ๋ ๋ค์์ ๋ง์กฑํ๋ค.
$\begin{Vmatrix}
\frac {\partial \tilde{\mathfrak{L}}}{\partial W^{2,L}}
\end{Vmatrix}_{F} \leq O(d \sqrt{ln d})$
๋ฐ๋ฉด์ $L$๋ฒ์งธ ๋ ์ด์ด์์ Pre-LN Transformer์ ๊ธฐ์ธ๊ธฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
$\begin{Vmatrix}
\frac {\partial \tilde{\mathfrak{L}}}{\partial W^{2,L}}
\end{Vmatrix}_{F} \leq O(d \sqrt{\frac {ln d}{L}})$
Post-LN Transformer์ ๊ฒฝ์ฐ ๋ง์ง๋ง FFN layer์ ๋ํ ๊ธฐ์ธ๊ธฐ์ ์ค์ผ์ผ์ด $L$๊ณผ ๋ฌด๊ดํ $O(d \sqrt{ln d})$ ์ฐจ์์์ ์ ์ ์๋ค. Pre-LN Transformer์ ๊ฒฝ์ฐ์๋, ๊ธฐ์ธ๊ธฐ์ ์ค์ผ์ผ์ด ํจ์ฌ ์์ $O(d \sqrt{\frac {ln d}{L}})$์ด๋ค.
Scale of Hidden States ์๋ก ๋ค๋ฅธ ๋ ์ด์ด์ hidden state์ ์ค์ผ์ผ์ ์ธก์ ํ์๋ค. ์ ๋ ฅ๊ณผ ์ด๊ธฐํ์ ๋ฌด์์์ฑ์ ๋ํ ๊ธฐ๋๊ฐ ์๋ค. ๋ง์ฝ $X \in R^{d}$๊ฐ ๊ฐ์ฐ์์ ๋ฒกํฐ $X ~ N(0, \sigma^{2}I_d)$์ด๋ฉด, $\mathbb{E}(||ReLU(X)||_{2}^{2})=\frac {1}{2}\sigma^{2}d$์ด๋ค. ์ด๊ธฐํ ์์ ์์ Post-LN Transformer์ ๋ํด์๋ $\mathbb{E}(||x_{l,i}^{post, 5}||_{2}^{2})=\frac {3}{2}d$์ด๊ณ , Pre-LN Transformer์ ๋ํด์๋ $(1 + \frac {l}{2})d \leq \mathbb{E}(||x_{l,i}^{pre}||_{2}^{2}) \leq (1 + \frac {3l}{2})d$์ด๋ค.
Advantage

์์ ๊ทธ๋ฆผ์์ ๋์์๋ ๊ฒ์ฒ๋ผ, ์์๋๋ ๊ธฐ์ธ๊ธฐ์ scale์ Post-LN Transformer์ ๋ํ layer index์ ํจ๊ป ์ฑ์ฅํ๋ค. ์ด์๋ ๋ฐ๋๋ก, Pre-LN Transformer์์ ์๋ก ๋ค๋ฅธ ๋ ์ด์ด์ ๋ํด scale์ ๊ฑฐ์ ๋๊ฐ์ ๊ฐ์ ์ ์งํ๋ค. ์ฌ๊ธฐ์ main idea๋ LN์ด ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ๊ทํํ ๊ฒ์ด๋ผ๋ ๊ฒ์ด๋ค.
Post-LN Transformer์์ LN์ ๋ํ ์ ๋ ฅ์ ์ค์ผ์ผ์ $L$๊ณผ ๋ฌด๊ดํ๋ฏ๋ก ๋ง์ง๋ง ๊ณ์ธต์ ๋งค๊ฐ๋ณ์ ๊ธฐ์ธ๊ธฐ๋ $L$๊ณผ ๋ฌด๊ดํ๋ค. Pre-LN Transformer์ ์๋ ๋์ ์ต์ข LN์ ๋ํ ์ ๋ ฅ์ ์ค์ผ์ผ์ $L$์์ ์ ํ์ด๋ฏ๋ก ๋ชจ๋ ๋งค๊ฐ๋ณ์์ ๊ธฐ์ธ๊ธฐ๋ $\sqrt{L}$๋ก ์ ๊ทํ๋๋ค.
3. Experiment Results
์ด์ ์น์ ์์ Pre-LN Transformer๋ฅผ ์ํ ์ด๊ธฐํ ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ ์๋ํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด๋ฌํ ์ฌ์ค์ ๊ธฐ๋ฐ์ผ๋ก, Pre-LN Transformer๋ฅผ ํ์ต์ํฌ ๋ learning rate warm-up stage๊ฐ ์์ ํ๊ฒ ์ ๊ฑฐ๋ ์ ์์์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฒ ์น์ ์์๋ ์ด๋ฅผ 2๊ฐ์ NLP task์ ๋ํด ์คํ์ ์ผ๋ก ์ ์ฆํ๋๋ก ํ์๋ค. ์ด ๋ ๊ฐ์ NLP task๋ Machine Translation๊ณผ Unsupervised Pre-Training$($BERT$)$์ด๋ค.
Machine Translation ์ด task์ ๋ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ค์์ ๊ทธ๋ฆผ 4์ a๋ถํฐ d๊น์ง ๋์์๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ ์ด์ learning rate warm-up stage๊ฐ ๊ฐ๋ ฅํ์ง ์์. ๋ฐ๋ผ์ Pre-LN Transformer๋ ๊ฒฝ์๋ ฅ์ ๊ฐ์ถ๊ฒ ๋์์.
- Pre-LN Transformer๊ฐ Post-LN Transformer๋ณด๋ค ๋๊ฐ์ $lr_{max}$์ ๋ํด ๋ ๋นจ๋ฆฌ ์๋ ดํจ.
- LN ์์น์ ๋ณํ๊ฐ optimizer์ ๋ณํ๋ฅผ '์ง๋ฐฐ'ํ๋ค๋ ์ฌ์ค ๋ฐ๊ฒฌ

Unsupervised Pre-training$($BERT$)$ model์ validation loss๋ฅผ ๋ค์์ ๊ทธ๋ฆผ 5์ a์ ๊ฐ์ด ๊ธฐ๋กํ์๋ค. machine translation task์ ๋น์ทํ๊ฒ Pre-LN Transformer๋ฅผ ์ํด learning rate warm-up stage๋ ์ ๊ฑฐ๋ ์ ์๋ค. ์ด๋ ๊ฒ ํ๋ฉด Pre-LN Transformer๋ ๋์ฑ ๋นจ๋ฆฌ ํ์ตํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ Pre-LN Transformer๋ ํฐ learning rate๋ฅผ ์ฌ์ฉํด์ ๋์ฑ ์ฝ๊ฒ ์ต์ ํ๋ ์ ์๋ค. ์คํ์์๋ ์๋ก ๋ค๋ฅธ model์ checkpoint๋ฅผ MRPC์ RTE downstream task์ ๋ํด ์งํํ์๋ค. ์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 5์ b์ c์ ๋์์๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด Pre-LN Transformer๊ฐ downstream task์ ๋์ฑ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.

์์ฝํ๋ฉด, ์๋ก ๋ค๋ฅธ task์ ๋ํ ๋ชจ๋ ์คํ์ Pre-LN Transformer์ ํ์ต์ํค๋ ๊ฒ์ด learning rate warm-up stage์ ์์กดํ์ง ์๊ณ Post-LN Transformer์ ๋นํด ๋์ฑ ๋น ๋ฅด๊ฒ ํ์ต๋ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์ถ์ฒ
ReviewโโโPre-LN Transformer: On Layer Normalization in the Transformer Architecture
Pre-LN Transformer, Warm-Up Stage is Skipped
sh-tsang.medium.com
https://arxiv.org/pdf/2002.04745.pdf
'Paper Reading ๐ > Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
The overview of this paper
Transformer๋ NLP task์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ค. ํ์ง๋ง Transformer๋ฅผ ํ์ต์ํค๊ธฐ ์ํด, ๋๊ฒ ์ ์คํ๊ฒ ๋์์ธ๋ learning rate warm-up stage๋ฅผ ์ฌ์ฉํ๋ค. ์ด learning rate warm-up stage๋ ์ต์ข ์ฑ๋ฅ์ ๋ง์ ์ํฅ์ ๋ผ์น์ง๋ง, optimization์ ์๋๋ฅผ ์ ํ์ํค๊ณ ๋ ๋ง์ hyper-parameter tuning์ ํ์๋ก ํ๋ค. ์ด ๋ ผ๋ฌธ์์๋ learning rate warm-up stage๊ฐ ์ ํ์์ ์ธ์ง์ layer normalization$($LN$)$์ ์์น์ ๋ํ ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์ด๊ธฐํ ์ residual block ์ฌ์ด์ layer normalization์ ๋ฐฐ์นํ๋ ์๋ ์ค๊ณ๋ Post-LN Transformer์ ๊ฒฝ์ฐ ์ถ๋ ฅ ๋ ์ด์ด ๊ทผ์ฒ์ ๋งค๊ฐ๋ณ์์ ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ํฌ๋ค๋ ๊ฒ์ mean field ์ด๋ก ์ผ๋ก ์ฆ๋ช ํ์๋ค. ๋ฐ๋ผ์ ๊ทธ ๊ธฐ์ธ๊ธฐ์์ ํฐ learning rate๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํ์ต์ ๋ถ์์ ํ๊ฒ ๋ง๋ ๋ค. warm-up stage๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํผํ๋๋ฐ ๋งค์ฐ ์ค์ฉ์ ์ด๋ค. ๋ฐ๋๋ก, ๋ ผ๋ฌธ์ ์ด๋ก ์ layer normalization์ด residual block ์ฌ์ด์ ๋ค์ด๊ฐ๊ฒ ๋๋ฉด, ์ด๊ธฐํ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ ์ ์ฉ๋๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์ ์คํ์์๋ warm-up stage๊ฐ ์๋ Pre-LN Transformer์ด ์๋นํ ์ ์ ํ์ต ์๊ฐ๊ณผ hyper-parameter tuning์๋ ๋ถ๊ตฌํ๊ณ , baseline์ ํ์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Optimization for the Transformer
2-1. Transformer with Post-Layer Normalization
2-2. The learning rate warm-up stage
2-3. Understanding the Transformer at initialization
3. Experiment Results
1. Introduction
Transformer๋ NLP์์ ๊ฐ์ฅ ํํ๊ฒ ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง architecture์ด๋ค. LN์ Transformer์ ์ฑ๊ณต์ ์ค์ํ ์ญํ ์ ํ์๋ค. ๊ธฐ์กด์ Transformer๋ residual block ์ฌ์ด์ LN์ ๋๋๋ฐ, ์ด๋ฅผ Transformer with Post-Layer Normalization์ด๋ผ ํ๋ค. ์ด architecture๋ ์ฌ๋ฌ ๋ถ์ผ์ NLP task์์ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๊ทธ๋ฆฌ๊ณ Post-LN Transformer์ ๊ธฐ๋ฐ์ ๋ ๋น์ง๋ํ์ต pre-trained model์ ๋ค์ํ downstream task์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
์ด๋ฌํ ์ฑ๊ณต์๋ ๋ถ๊ตฌํ๊ณ , ์ฌ๋๋ค์ ๋ณดํต Post-LN Transformer๋ CNN์ด๋ seq2seq model๋ณด๋ค ๋์ฑ ์กฐ์ฌํ optimization์ ๋ค๋ฃฌ๋ค. ํนํ, model์ ์ฒ์๋ถํฐ ํ์ต์ํค๊ธฐ ์ํด์๋, ์ด๋ ํ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ์ ์ต์ ํ ๋ฐฉ์์ด๋ ๊ฐ์ learning rate warm-up stage๋ฅผ ํ์๋ก ํ๋ค. ์ด learning rate warm-up stage๋ ๋งค์ฐ ์์ learning rate์์ ์์ํด์ ์ด๋ฅผ pre-defined ๋ฐ๋ณต์๋ก pre-defined maximum value๊น์ง ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์ํจ๋ค. ์ด๋ฌํ warm-up stage๋ ์ต์ ํ์ ์๋๋ฅผ ๋ฆ์ถ ๋ฟ๋ง ์๋๋ผ ๋ ๋ง์ parameter tuning์ ํ์๋ก ํ๋ค.
์ด ๋ ผ๋ฌธ์์๋ learning rate warm-up stage๋ฅผ ์์ ํ๊ฒ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ์ฐพ์์ผ๋ก์จ ๋ฌธ์ ๋ฅผ ์ํํ์๋ค. ์ฒซ ๋ฒ์งธ ๋ฐ๋ณต์์ warm-up stage๊ฐ ๋ฐ์ํ๋ ๊ฒ์ฒ๋ผ, mean field ์ด๋ก ์ ์ฌ์ฉํด์ ์ด๊ธฐํ ์ํ์์ optimization ํ๋์ ์กฐ์ฌํ์๋ค. ๋ ผ๋ฌธ์ ์ด๋ก ์ ๋ถ์์ ์ํ๋ฉด, residual block ์ฌ์ด์ LN์ ๋ฐฐ์นํ ๋, output layer ๊ทผ์ฒ ํ๋ผ๋ฏธํฐ์ ์์๋๋ ๊ธฐ์ธ๊ธฐ๋ ํฌ๋ค. ๊ทธ๋์, warm-up stage ์์ด large learning rate๋ฅผ ์ด ํ๋ผ๋ฏธํฐ์ ์ฌ์ฉํ๋ ๊ฒ์ optimization ํ๋ก์ธ์ค๋ฅผ ๋ถ์์ ํ๊ฒ ๋ง๋ ๋ค. warm-up stage์ small learning rate๋ก model์ ํ์ต์ํค๋ ๊ฒ์ ์ด ๋ฌธ์ ๋ฅผ ์ค์ฉ์ ์ผ๋ก ํผํ ์ ์๊ฒ ๋์์ค๋ค. ๊ด๋ฒ์ํ ์คํ์ ๋ ผ๋ฌธ์ ์ด๋ก ์ ๋ฐ๊ฒฌ์ ์ง์งํ๋ ๋ด์ฉ์ ์ ๊ณตํด์ค๋ค.
๋ ผ๋ฌธ์ ์ด๋ก ์ LN์ด ๊ธฐ์ธ๊ธฐ scale์ ์กฐ์ ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ์ฐ๊ตฌ์๋ค์๊ฒ LN์ ์ด๋ค ์์น์ ๋์์ ๋ ์ ์ ์๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ป๊ฒ ํ๋์ง์ ๋ํ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์กฐ์ฌํ๊ณ ์ ํ๊ฒ ํ์๋ค. ํนํ, ๋ ผ๋ฌธ์์๋ ๋ค๋ฅธ ๋ณํ์ธ Pre-LN์ ์ฌ์ฉํ๋ Transformer๋ฅผ ์ฐ๊ตฌํ์๋ค. Pre-LN Transformer๋ residual connection ์์ LN์ ๋ฃ๊ณ , ์์ธก ์ ์ ์ถ๊ฐ์ ์ธ final-layer normalization์ ์ถ๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ธฐํ ์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ด๋ก ์ ์ผ๋ก๋ ๊ฒฝํ์ ์ผ๋ก Pre-LN Transformer์ ๋ํด ํญ๋ฐํ๊ฑฐ๋ ์ฌ๋ผ์ง์ง ์๊ณ ์ ๋์ํจ์ ๋ณด์ฌ์คฌ๋ค.
๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ชจ๋ task์์ learning rate warm-up stage๊ฐ ์์ ํ๊ฒ ์ ๊ฑฐ๋์๊ณ , hyper-parameter์ ์ ๋ํ ์ค์ด๋ค์๋ค. ๊ฒ๋ค๊ฐ, ๋ ผ๋ฌธ์์๋ Pre-LN Transformer์ ๋ํด loss decay๊ฐ ๋ ๋นจ๋๋ค. Pre-LN Transformer๋ ๋น์ทํ ์ต์ข ์ฑ๋ฅ์ ๋์ฑ ์ ์ ํ์ต ์๊ฐ์ ์ฌ์ฉํด์ ๋ฌ์ฑํ์๋ค. ์ด๋ large-scale model์ large-scale dataset์ ๋ํด ํ์ต์ํค๋ ๊ฒ์ ๋ํด ํนํ ์ค์ํ๋ค.
๋ ผ๋ฌธ์ Contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ Transformer ๋ณํ์ธ, Post-LN Transformer๊ณผ Pre-LN Transformer์ ๋ํด mean field ์ด๋ก ์ ์ฌ์ฉํด์ ์กฐ์ฌํ์๋ค. ์ด๊ธฐํ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ฐ๊ตฌํ์ฌ, ๋ ผ๋ฌธ์์๋ ์ learning rate warm-up stage๊ฐ Post-LN Transformer์ ํ์ต์ํฌ ๋ ํ์์ ์ธ์ง์ ๋ํ ์ฆ๊ฑฐ๋ฅผ ์ ๊ณตํ์๋ค.
- ๋ ผ๋ฌธ์์๋ ์ฒ์์ผ๋ก learning rate warm-up stage๊ฐ hyperparameter tuning์ ์ฝ๊ฒ ๋ง๋ค์ด์ฃผ๋ Pre-LN Transformer๋ฅผ ์ํด ์ ๊ฑฐ๋ ์ ์์์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก ์ ์ ํ learning rate scheduler๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ training time์ด ๊ด๋ฒ์ํ ์์ฉ์์ ํฌ๊ฒ ๊ฐ์๋ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
2. Optimization for the Transformer
2-1. Transformer with Post-LN Normalization
์ด ์น์ ์์๋ vanilla Transformer์ ๋ํด์ ์ค๋ช ํ๊ณ ์๋ค. Transformer์ ๋ํ ์์ธํ ์ค๋ช ์ด ๊ถ๊ธํ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
Transformer layer์์ sub layer, reidual connection, LN์ ์๋ก ๋ค๋ฅธ ์์๋ Transformer architecture์ ๋ณํ์ ์ผ๊ธฐํ๋ค. Transformer์ BERT๋ฅผ ์ํ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ด๊ณ ๊ฐ์ฅ ์ ๋ช ํ๊ฒ ์ฌ์ฉ๋๋ architecture๋ "self-attention$($FFN$)$ sub-layer โ residual connection โ layer normalization"์ ๋ฐ๋ฅธ๋ค. ์ด๊ฒ์ Post-LN with Transformer์ด๋ผ๊ณ ๋ถ๋ฅด๊ณ , ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ค.

Post-LN Transformer $x_{l, i}$๋ฅผ ์์น $i$์์ $l$๋ฒ์งธ Transformer layer์ ์ ๋ ฅ์ผ๋ก ํ๊ธฐํ๊ณ , ์ฌ๊ธฐ์ $x_{l, i}$๋ ์ฐจ์์ด $d, i = 1, 2, ..., n, l = 1, 2, ..., L$์ ์ค์ ๊ฐ ๋ฒกํฐ์ด๋ค. $n$์ sequence์ ๊ธธ์ด์ด๊ณ , $L$์ layer์ ์์ด๋ค. ์์ฑ๋๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ ์ผ๋ฐ์ ์ผ๋ก word embedding๊ณผ positional embedding์ ์กฐํฉ์ธ ์์น $i$์์ input embedding์ $x_{0, i}$๋ก ์ ์ํ๋ค. $l$๋ฒ์งธ ๋ ์ด์ด์ ์์ ๋ค์ด์๋ ๊ณ์ฐ์ ์ฌ๋ฌ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , ํ 1์ ์ผ์ชฝ์ฒ๋ผ ๋ค๋ฅธ ์คํ ์ input๊ณผ output์ ํํํ๊ธฐ ์ํด $x$์ super-script๋ฅผ ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ์ $W^{1,l}, W^{2,l}, b^{1,l}, b^{2,l}$์ $l$๋ฒ์งธ ๋ ์ด์ด์์ FFN sub-layer์ ํ๋ผ๋ฏธํฐ๋ค์ด๋ค.

2-2. The learning rate warm-up stage$($Post-LN Transformer$)$
๋ ผ๋ฌธ์์๋ Post-LN Transformer์ optimization์์ learning rate wam-up stage์ ๊ด์ฌ์ ๊ฐ์ก๋ค. learning rate๊ฐ ์๋์ ํฐ ๊ฐ์์ ์์ํด์ ๊ฐ์ํ๋ ๋ค๋ฅธ ๋ง์ architecture์ optimization๊ณผ ๋ฌ๋ฆฌ Post-LN Transformer์ learning rate warm-up stage๋ ๋งค์ฐ ์ค์ํด ๋ณด์ธ๋ค. ๋ ผ๋ฌธ์์๋ $t$๋ฒ์งธ ๋ฐ๋ณต์ learning rate๋ฅผ $lr(t)$๋ก ํ๊ธฐํ๊ณ , ํ์ต ์ค์ maximum learning rate๋ฅผ $lr_{max}$๋ก ํ๊ธฐํ์๋ค. pre-defined ํ์ ํ๋ ์ $T_{warmup}$์ด ์ฃผ์ด์ง๋ฉด, ์ฒซ ๋ฒ์งธ $T_{warmup}$ ๋ฐ๋ณต์ ์ํ learning rate scheduler๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
$lr(t) = \frac {t}{T_{warmup}}lr_{max}, t \leq T_{warmup}$
์ด warm-up stage ์ดํ์, learning rate๋ ์ผ๋ฐ์ ์ธ learning rate scheduler๋ก ์ค์ ๋๋ค. ๋ ผ๋ฌธ์์๋ Post-LN Transformer๋ฅผ ํ์ต์ํค๊ธฐ ์ํด learning rate warmup-stage๊ฐ ํ์์ ์ด๋ผ๋ ๊ฒ์ ์คํ์ ํตํด ๋ณด์ฌ์คฌ๋ค.
Results and discussions ๋ ผ๋ฌธ์์๋ validation loss์ BLEU score๋ฅผ ํ์ตํ๊ณ ๊ณ์ฐํ ๋ ๋งค epoch์ ๋ํด model checkpoint๋ฅผ ๊ธฐ๋กํ์๋ค. model์ ์ฑ๋ฅ์ ๊ทธ๋ฆผ 2$($a$)$์ ๊ทธ๋ฆผ 2$($b$)$์ ๋ํ๋์๋ค. $x$์ถ์ epoch์ ์์ด๊ณ , $y$์ถ์ BLEU score/validation loss์ด๋ค. "w/o warm-up"์ "warm-up stage๊ฐ ์์"์ ์๋ฏธํ๋ ๋ฐ๋ฉด์ "w/ warm-up"์ "warm-up stage์ ํจ๊ป"๋ฅผ ์๋ฏธํ๋ค.

์ฒซ ๋ฒ์งธ๋ก, ๋ optimizer์ ๋ํด learning rate warm-up stage๊ฐ ํ์์ ์ด๋ผ๋ ๊ฒ์ ์์๋๋ค. warm-up stage ์์ด Adam optimizer์ ํจ๊ป ํ์ต๋ ๋ชจ๋ธ์ BLEU score์์ 8.45๋ฅผ ๋ฌ์ฑํ์๋ค. ๋น๊ต์ ๋ฐ๋ฅด๋ฉด, warm-up stage๋ฅผ ์ฌ์ฉํด์ ํ์ตํ ๋ชจ๋ธ์ BLEU score์์ 34๋ฅผ ๋ฌ์ฑํ์๋ค. ์ด๋ฌํ ๊ฒฝํฅ์ validation loss curve์์๋ ํ์ธํ ์ ์์๋ค. SGD๋ฅผ ์ด์ฉํ์ฌ ํ์ต๋ ๋ชจ๋ธ์ Adam์ ๋นํด ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง, ์ด๋ฌํ ๊ฒฝํฅ์ ๋๊ฐ์ด ๋ํ๋ฌ๋ค. warm-up stage๋ฅผ ์ฌ์ฉํ์ง ์์ ๋ชจ๋ธ์ 15 epoch์ ํ์ต ๋ค์๋ BLEU score๊ฐ 0์ ์กฐ๊ธ ๋๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
๋ ๋ฒ์งธ๋ก, optimization ํ๋ก์ธ์ค๋ $T_{warmup}$์ ๊ฐ์ ๋ํด์ ๋ฏผ๊ฐํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด๊ฒ์ Post-LN Transformer์ ํ์ต์ํฌ ๋ $T_{warmup}$์ด ์ค์ํ hyper-parameter๋ผ๋ ์๋ฏธ์ด๋ค. ์๋ฅผ ๋ค์ด, $T_{warmup} = 500$์ผ๋ก ์ค์ ํ์ ๋, Adam์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ๊ฐ $lr_{max}=5e^{-4}$์ $1e^{-3}$์ ๋ํด BLEU score์์ ๊ฒจ์ฐ 31.16๊ณผ 2.77์ ์ ์๋ฅผ ๊ธฐ๋กํ์๋ค.
์ด๋ฌํ warm-up stage๋ ์ฌ๋ฌ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, warm-up stage์ ๊ตฌ์ฑ์ ์ต์ข ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ผ์น๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ๊ฐ๋ฐ์๋ค์ large-scale NLP task์ ๋ํด ๊ณ์ฐ์ ์ผ๋ก ๋น์ผ ์ ์คํ hyper-parameter tuning์ ํ์๋ก ํ๋ค. ๋ ๋ฒ์งธ๋ก, warm-up stage๋ optimization์ ์๋๋ฅผ ๋ฆ์ถ๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์กด์ optimization ์๊ณ ๋ฆฌ์ฆ์ ๋ณดํต ๋น ๋ฅธ ์๋ ด์ ์ํด ์ปค๋ค๋ learning rate์์ ์์ํ๋ค. ํ์ง๋ง, warm-up stage๋ฅผ ์ฌ์ฉํ ๋, learning rate๋ 0์์๋ถํฐ ์ ์ฐจ ์ฆ๊ฐํด ๋๊ฐ๋๋ฐ, ์ด๋ ํ์ต์ ๋นํจ์จ์ ์ผ๋ก ๋ง๋ ๋ค. ์ด์ ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, warm-up stage๋ ๋ชจ๋ธ ํ๋ จ์ ์ด๊ธฐ ๋จ๊ณ์์ Adam์ ๋ฐ๋์งํ์ง ์์ ์๋นํ ๋ถ์ฐ์ ์ค์ด๋ ๋ฐ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, warm-up stage๋ SGD์ ํ์ต ๋ํ ๋์์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ warm-up stage์ ์ด์ต์ ํน์ optimizer์ ๊ตญํ๋์ง ์์์ ๋ณด์ฌ์ค๋ค.
2-3. Understanding the Transformer at initialization$($Pre-LN Transformer$)$
๋ ผ๋ฌธ์์ ์ ์๋ Pre-LN Transformer๋ ๋ค์๊ณผ ๊ฐ๋ค.

์ด ๊ทธ๋ฆผ 3์ ์ดํด๋ณด๋ฉด Post-LN Transformer์ ๋ฌ๋ฆฌ LN์ ์์น๊ฐ ๋ณํด์๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๊ฒ์ด Post-LN Transformer์ Pre-LN Transformer์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ด๋ค.
Gradient of Weight Prameter ์ง๊ฐ์ ์ผ๋ก ๋๋ค ๋ณ์ $Z$๊ฐ $(\varepsilon /, \delta)$-bounded์ด๋ฉด, ๋์ ํ๋ฅ ๋ก ๊ทธ realization์ด ๊ธฐ๋์์ ๋๋ฌด ๋ฉ๋ฆฌ ๋จ์ด์ ธ์์ง ์์ ๊ฒ์ด๋ค. $L$๋ฒ์งธ ๋ ์ด์ด์์ Post-LN Transformer์ ๋ํ ๋ง์ง๋ง ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ์ ๊ธฐ์ธ๊ธฐ๋ ๋ค์์ ๋ง์กฑํ๋ค.
$\begin{Vmatrix}
\frac {\partial \tilde{\mathfrak{L}}}{\partial W^{2,L}}
\end{Vmatrix}_{F} \leq O(d \sqrt{ln d})$
๋ฐ๋ฉด์ $L$๋ฒ์งธ ๋ ์ด์ด์์ Pre-LN Transformer์ ๊ธฐ์ธ๊ธฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
$\begin{Vmatrix}
\frac {\partial \tilde{\mathfrak{L}}}{\partial W^{2,L}}
\end{Vmatrix}_{F} \leq O(d \sqrt{\frac {ln d}{L}})$
Post-LN Transformer์ ๊ฒฝ์ฐ ๋ง์ง๋ง FFN layer์ ๋ํ ๊ธฐ์ธ๊ธฐ์ ์ค์ผ์ผ์ด $L$๊ณผ ๋ฌด๊ดํ $O(d \sqrt{ln d})$ ์ฐจ์์์ ์ ์ ์๋ค. Pre-LN Transformer์ ๊ฒฝ์ฐ์๋, ๊ธฐ์ธ๊ธฐ์ ์ค์ผ์ผ์ด ํจ์ฌ ์์ $O(d \sqrt{\frac {ln d}{L}})$์ด๋ค.
Scale of Hidden States ์๋ก ๋ค๋ฅธ ๋ ์ด์ด์ hidden state์ ์ค์ผ์ผ์ ์ธก์ ํ์๋ค. ์ ๋ ฅ๊ณผ ์ด๊ธฐํ์ ๋ฌด์์์ฑ์ ๋ํ ๊ธฐ๋๊ฐ ์๋ค. ๋ง์ฝ $X \in R^{d}$๊ฐ ๊ฐ์ฐ์์ ๋ฒกํฐ $X ~ N(0, \sigma^{2}I_d)$์ด๋ฉด, $\mathbb{E}(||ReLU(X)||_{2}^{2})=\frac {1}{2}\sigma^{2}d$์ด๋ค. ์ด๊ธฐํ ์์ ์์ Post-LN Transformer์ ๋ํด์๋ $\mathbb{E}(||x_{l,i}^{post, 5}||_{2}^{2})=\frac {3}{2}d$์ด๊ณ , Pre-LN Transformer์ ๋ํด์๋ $(1 + \frac {l}{2})d \leq \mathbb{E}(||x_{l,i}^{pre}||_{2}^{2}) \leq (1 + \frac {3l}{2})d$์ด๋ค.
Advantage

์์ ๊ทธ๋ฆผ์์ ๋์์๋ ๊ฒ์ฒ๋ผ, ์์๋๋ ๊ธฐ์ธ๊ธฐ์ scale์ Post-LN Transformer์ ๋ํ layer index์ ํจ๊ป ์ฑ์ฅํ๋ค. ์ด์๋ ๋ฐ๋๋ก, Pre-LN Transformer์์ ์๋ก ๋ค๋ฅธ ๋ ์ด์ด์ ๋ํด scale์ ๊ฑฐ์ ๋๊ฐ์ ๊ฐ์ ์ ์งํ๋ค. ์ฌ๊ธฐ์ main idea๋ LN์ด ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ๊ทํํ ๊ฒ์ด๋ผ๋ ๊ฒ์ด๋ค.
Post-LN Transformer์์ LN์ ๋ํ ์ ๋ ฅ์ ์ค์ผ์ผ์ $L$๊ณผ ๋ฌด๊ดํ๋ฏ๋ก ๋ง์ง๋ง ๊ณ์ธต์ ๋งค๊ฐ๋ณ์ ๊ธฐ์ธ๊ธฐ๋ $L$๊ณผ ๋ฌด๊ดํ๋ค. Pre-LN Transformer์ ์๋ ๋์ ์ต์ข LN์ ๋ํ ์ ๋ ฅ์ ์ค์ผ์ผ์ $L$์์ ์ ํ์ด๋ฏ๋ก ๋ชจ๋ ๋งค๊ฐ๋ณ์์ ๊ธฐ์ธ๊ธฐ๋ $\sqrt{L}$๋ก ์ ๊ทํ๋๋ค.
3. Experiment Results
์ด์ ์น์ ์์ Pre-LN Transformer๋ฅผ ์ํ ์ด๊ธฐํ ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ ์๋ํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด๋ฌํ ์ฌ์ค์ ๊ธฐ๋ฐ์ผ๋ก, Pre-LN Transformer๋ฅผ ํ์ต์ํฌ ๋ learning rate warm-up stage๊ฐ ์์ ํ๊ฒ ์ ๊ฑฐ๋ ์ ์์์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฒ ์น์ ์์๋ ์ด๋ฅผ 2๊ฐ์ NLP task์ ๋ํด ์คํ์ ์ผ๋ก ์ ์ฆํ๋๋ก ํ์๋ค. ์ด ๋ ๊ฐ์ NLP task๋ Machine Translation๊ณผ Unsupervised Pre-Training$($BERT$)$์ด๋ค.
Machine Translation ์ด task์ ๋ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ค์์ ๊ทธ๋ฆผ 4์ a๋ถํฐ d๊น์ง ๋์์๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ ์ด์ learning rate warm-up stage๊ฐ ๊ฐ๋ ฅํ์ง ์์. ๋ฐ๋ผ์ Pre-LN Transformer๋ ๊ฒฝ์๋ ฅ์ ๊ฐ์ถ๊ฒ ๋์์.
- Pre-LN Transformer๊ฐ Post-LN Transformer๋ณด๋ค ๋๊ฐ์ $lr_{max}$์ ๋ํด ๋ ๋นจ๋ฆฌ ์๋ ดํจ.
- LN ์์น์ ๋ณํ๊ฐ optimizer์ ๋ณํ๋ฅผ '์ง๋ฐฐ'ํ๋ค๋ ์ฌ์ค ๋ฐ๊ฒฌ

Unsupervised Pre-training$($BERT$)$ model์ validation loss๋ฅผ ๋ค์์ ๊ทธ๋ฆผ 5์ a์ ๊ฐ์ด ๊ธฐ๋กํ์๋ค. machine translation task์ ๋น์ทํ๊ฒ Pre-LN Transformer๋ฅผ ์ํด learning rate warm-up stage๋ ์ ๊ฑฐ๋ ์ ์๋ค. ์ด๋ ๊ฒ ํ๋ฉด Pre-LN Transformer๋ ๋์ฑ ๋นจ๋ฆฌ ํ์ตํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ Pre-LN Transformer๋ ํฐ learning rate๋ฅผ ์ฌ์ฉํด์ ๋์ฑ ์ฝ๊ฒ ์ต์ ํ๋ ์ ์๋ค. ์คํ์์๋ ์๋ก ๋ค๋ฅธ model์ checkpoint๋ฅผ MRPC์ RTE downstream task์ ๋ํด ์งํํ์๋ค. ์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 5์ b์ c์ ๋์์๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด Pre-LN Transformer๊ฐ downstream task์ ๋์ฑ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.

์์ฝํ๋ฉด, ์๋ก ๋ค๋ฅธ task์ ๋ํ ๋ชจ๋ ์คํ์ Pre-LN Transformer์ ํ์ต์ํค๋ ๊ฒ์ด learning rate warm-up stage์ ์์กดํ์ง ์๊ณ Post-LN Transformer์ ๋นํด ๋์ฑ ๋น ๋ฅด๊ฒ ํ์ต๋ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์ถ์ฒ
ReviewโโโPre-LN Transformer: On Layer Normalization in the Transformer Architecture
Pre-LN Transformer, Warm-Up Stage is Skipped
sh-tsang.medium.com
https://arxiv.org/pdf/2002.04745.pdf