The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ ์ฃผ์ด์ง compute budget์์ transformer LM์ ํ์ต์ํค๊ธฐ ์ํ ์ต์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ & ํ ํฐ์ ์๋ฅผ ์กฐ์ฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ํ์ฌ์ ๋ชจ๋ธ๋ค์ ์๋นํ under-train ๋์ด ์๋ค๋ ์ฌ์ค์ ๋ฐํ๋ค. ํ์ฌ ๋ง์ ์ฐ๊ตฌ๋ค์ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ scaling ํ์ง๋ง, training data์ ์์ ํฌ๊ฒ ๋ณํ์ํค์ง ์๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ํ ํฐ์ ์์ ๋ํด ์คํ์ ์งํํ๊ณ compute-optimal training์ ์ํด ๋ชจ๋ธ ์ฌ์ด์ฆ์ training ํ ํฐ์ ์๋ ๋๊ฐ์ด scale ๋์ด์ผ ํ๋ค๋ ์ฌ์ค์ ๋ฐํ๋๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด Gopher์ ๋๊ฐ์ compute budget์ ์ฌ์ฉํ์ง๋ง 70B ํ๋ผ๋ฏธํฐ์ 4๋ฐฐ ๋ ๋ง์ ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ ผ๋ฌธ์ scaling law์ ์ํ compute-optimal model์ธ Chinchilla๋ฅผ ํ์ต์์ผฐ๋ค. ๊ทธ ๊ฒฐ๊ณผ Chinchilla๋ Gopher(280B), GPT-3(175B), Jurassic(178B), Megatron-Turing NLG(530B)๋ฅผ ์ฌ๋ฌ downstream ํ๊ฐ task์์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค!! ๐ฒ
์ด ๋ ผ๋ฌธ์์๋ ์ต์ ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์์ training token์ ์๋ฅผ ์ฐพ๊ธฐ ์ํด ์์์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋๋ฐ ์ด ๋ถ๋ถ์ ๋ง๋ก ์กฐ๊ธ ์ฝ๊ฒ ํ์ด๋ด๋ณด์๋ค!!
Table of Contents
1. Introduction
2. Estimating the optimal parameter/training tokens allocation
3. Chinchilla
4. Discussion & Conclusion
1. Introduction
์ต๊ทผ์ ์๊ฐ๋ LLM๋ค์ ์์ฒญ ํฌ๊ณ task์์ ์๋นํ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ค์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง LLM์ ํ์ต์ํค๊ธฐ ์ํ ๊ณ์ฐ๋๊ณผ ์๋์ง ๋น์ฉ์ ์๋นํ๊ณ , ์ฌ์ง์ด ๋ชจ๋ธ์ ์ฌ์ด์ฆ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ํจ์ฌ ๋ ์ปค์ง๋ค. compute & energy cost๋ ์ฌ์ ์ ํ ๋น๋๋๋ฐ, ์ด๋ large model์ ํ ๋ฒ ๋๋ฆด ์ ๋์ ์ ๋ฐ์ ๋์ง ์์์ ์ฃผ์ด์ง compute budget์ ๋ํ ์ต๊ณ ์ ๋ชจ๋ธ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ํํ๊ฒ ์ธก์ ํ๋ ๊ฒ์ ์ค์ํ๋ค.
์ด์ ์ ๋ ผ๋ฌธ์์๋ AR LM์์ ํ๋ผ๋ฏธํฐ์ ์์ ์ฑ๋ฅ ๊ฐ์๋ power law๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ ๋ฐํ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ์ ์ํ๋ฉด ๋์ฑ ํฐ ๋ชจ๋ธ์์ ํ์ตํ ์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์๋๋ค. Chinchilla ๋ ผ๋ฌธ์์๋ ๋๊ฐ์ ๊ฒฐ๋ก ์ ๋๋ฌํ๊ฒ ๋๋๋ฐ, ๋ค๋ง ์ด์ ๋ ผ๋ฌธ์ ์ ์์ ๋ฌ๋ฆฌ ์ฌ๊ธฐ์์๋ ๋ ๋ง์ training token์์ ํ์ต๋์ด์ผ ํ๋ค๋ ๊ฒ์ ์ธก์ ํ์๋ค. ์ด์ ์ ๋ ผ๋ฌธ์์๋ computation budget์ด 10๋ฐฐ ์์นํ๋ฉด ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ 5.5๋ฐฐ ์ฆ๊ฐํด์ผ ํ๊ณ , training token์ ์๋ 1.8๋ฐฐ ์ฆ๊ฐํด์ผ ํ๋ค๊ณ ์ ์ํ์๋ค. ํ์ง๋ง, Chinchilla ๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token์ ๋๊ฐ์ ๋น์จ๋ก scale ๋์ด์ผ ํ๋ค! โ ๏ธ
๋ ผ๋ฌธ์์๋ ๋ค์์ ์ง๋ฌธ์ ๋ค์ ์๊ฐํด๋ณด์๋ค.
'๊ณ ์ ๋ FLOPs budget์ด ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token์ ์๋ ์ด๋ป๊ฒ trade-off ํด์ผ ํ ๊น?'
์ด ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ต์ข pre-training loss $L(N, D)$๋ฅผ ๋ชจ๋ธ๋งํ์๋ค. ์ฌ๊ธฐ์ $N$์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ์์ด๊ณ , $D$๋ training token์ ์์ด๋ค. ๊ทธ๋ฆฌ๊ณ $C$๋ compute budget์ธ๋ฐ $FLOPs (N, D)$์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด $FLOPs(N, D) = C$ ํ์์ $L$์ ์ต์ํํ๊ธฐ ์ํด ํ์ต๋๋ค.
์ด ํจ์์์ $N_{opt}(C)$์ $D_{opt}(C)$๋ computation budget $C$์ ์ต์ ํ ๋น์ ์๋ฏธํ๋ค. ๋ ผ๋ฌธ์์๋ 70M to 16B ํ๋ผ๋ฏธํฐ & 5B to 400B tokens์ 400๊ฐ ์ด์์ ๋ชจ๋ธ์์ loss์ ๊ธฐ๋ฐํด์ ์ด ํจ์๋ฅผ ์ธก์ ํ์๋ค. ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ด์ ์ ๋ ผ๋ฌธ๊ณผ๋ ์๋นํ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์ด๋์ด๋ธ๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ด ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์กฐํ๊ณ ์๋ค.
๋ ผ๋ฌธ์์ ์ธก์ ํ compute-optimal frontier์ ๊ธฐ๋ฐํด์, ๋ ผ๋ฌธ์์๋ Gopher๋ฅผ train ํ๊ธฐ ์ํด ์ฌ์ฉ๋ compute budget์์ optimal model์ 4๋ฐฐ ๋ ์ ๊ณ , ๋์ ์ 4๋ฐฐ ๋ ๋ง์ token์์ ํ์ต์์ผฐ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ๋์ฑ compute-optimal ํ 70B ๋ชจ๋ธ์ธ Chinchilla๋ก 1.4T token์์ ํ์ต์ํด์ผ๋ก์จ ์ ์ฆ์์ผฐ๋ค. ๊ทธ ๊ฒฐ๊ณผ Chinchilla๋ ๋์ฑ ํฐ ๋ชจ๋ธ์ธ Gopher๋ฅผ ๋ฅ๊ฐํ ๋ฟ๋ง ์๋๋ผ ๊ฐ์๋ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ ์ถ๋ก ๋น์ฉ์ ์๋นํ ๊ฐ์์์ผฐ๊ณ , smaller ํ๋์จ์ด์์ downstream ์ฌ์ฉ์ ์ฉ์ดํ๊ฒ ํ์๋ค.
2. Estimating the optimal parameter/training tokens allocation
๋ ผ๋ฌธ์์๋ '๊ณ ์ ๋ FLOPs budget์ด ์ฃผ์ด์ง๋ฉด ์ด๋ป๊ฒ ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token์ ์ ๊ฐ์ trade-off๋ฅผ ํด์ผํ ๊น?'๋ผ๋ ์ง๋ฌธ์ ๋ํ ๋ต์ ๋ด๋๊ธฐ ์ํด 3๊ฐ์ ์๋ก ๋ค๋ฅธ approach๋ฅผ ์ฌ์ฉํ์๋ค. ์ด 3๊ฐ์ ๊ฒฝ์ฐ์์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token์ ์๋ฅผ ๋ค์ํ๊ฒ ํด์ ์ฌ๋ฌ ๋ชจ๋ธ์ ํ์ต์์ผฐ๊ณ , ์ด๋ป๊ฒ scale ํด์ผ ํ๋์ง ์๊ธฐ ์ํด estimator๋ฅผ ๊ฒฐ๊ณผ๋ก ๋์จ training curve์ ์ฌ์ฉํ์๋ค. 3๊ฐ์ approach์ ๋ํด์ ๋์จ ๊ฒฐ๊ณผ๋ ๋ชจ๋ ์ ์ฌํ์๊ณ , ํ๋ผ๋ฏธํฐ ์์ training token์ ์๋ ๋ ๋ง์ compute์ ํจ๊ป ๋๊ฐ์ด ์ฆ๊ฐ๋์ด์ผ ํ๋ค๋ ์ฌ์ค์ ์ ์ํ์๋ค. ์ด๋ ํ์คํ ์ด์ ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ์๋ ํ์คํ ๋ค๋ฅด๋ค!
2-1. Approach 1: ๋ชจ๋ธ ์ฌ์ด์ฆ ๊ณ ์ & training token์ ์ ๋ค์ํ๊ฒ
๊ณ ์ ๋ familt model์์ 4๊ฐ์ ์๋ก ๋ค๋ฅธ training sequence์ ์๋ฅผ ๋ฌ๋ฆฌํ์ฌ ์คํ์ ์งํํ์๋ค. ํ์ํ training token์ ์์ ํจ๊ป ๋ชจ๋ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋ฎ์ loss๋ฅผ ๋ฌ์ฑํ๋ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ์ฐพ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 2์ ๊ฐ๋ค.
๋ง์ง๋ง์ผ๋ก, ์ฃผ์ด์ง compute budget์ ๋ํ ์ต์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token ์๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ๊ฑฐ๋ญ์ ๊ณฑ ๋ฒ์น์ ์ ์ฉํ์ฌ ๊ด๊ณ $N_{opt} \propto C^{a}$์ $D_{opt} \propto C^{b}$๋ฅผ ์ป์๋ค(๊ทธ๋ฆผ 2์ ๊ฐ์ด๋ฐ ๋ฐ ์ค๋ฅธ์ชฝ ์ฐธ์กฐ). ๊ทธ๋ฆฌ๊ณ ์ฌ๊ธฐ์ $a=0.5$์ $b=0.5$๊ฐ ์ต์ ์ด์๋ค.
2-2. Approach 2: IsoFLOP profiles
9๊ฐ์ ์๋ก ๋ค๋ฅธ training FLOP ์นด์ดํธ์ ๊ณ ์ ๋ ์ธํธ์ ๋ํ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ๋ฌ๋ฆฌํ์๊ณ , ๊ฐ ํฌ์ธํธ์ ๋ํ ์ต์ข training loss๋ฅผ ๊ณ ๋ คํ์๋ค. ์ ์ฒด training run์ ๋ฐ๋ผ point $(N, D, L)$๋ฅผ ๊ณ ๋ คํ๋ approach 1๊ณผ ๋ฐ๋์ด๋ค. ์ด๋ '์ฃผ์ด์ง FLOP budget์ ๋ํด, ๋ฌด์์ด ์ต์ ์ ํ๋ผ๋ฏธํฐ ์นด์ดํธ์ธ๊ฐ?'๋ผ๋ ์ง๋ฌธ์ ๋๋ตํ ์ ์๊ฒ ํด ์ค๋ค. ๊ทธ๋ฆผ 3์ ์ดํด๋ณด์.
๊ฐ FLOP budget์ ๋ํด, ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฆผ 3(์ผ์ชฝ)์์ ํ๋ผ๋ฏธํฐ ์นด์ดํธ์ ๋ํ ์ต์ข loss๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ชจ๋ ๊ฒฝ์ฐ์์ loss์ ๋ถ๋ช ํ ์ต์๋ฅผ ๋ณด๊ธฐ ์ดํด ์ถฉ๋ถํ ๋ค์ํ ๋ชจ๋ธ ์ธํธ๋ฅผ ํ์ต์์ผฐ๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ IsoFLOPs curve์ ํฌ๋ฌผ์ ์ ์ ์ฉํ์ฌ minimum loss๊ฐ ์ป์ด์ง๋ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ์ธก์ ํ์๋ค(๊ทธ๋ฆผ 3(์ผ์ชฝ)). ์ด์ appraoch์ฒ๋ผ FLOPs์ loss-optimal model size & training token์ ์ ๊ฐ์ power law๋ฅผ ์ ์ฉํ์๋ค(๊ทธ๋ฆผ 3(์ค์, ์ค๋ฅธ์ชฝ)). ๋๋ค์ $N_{opt} \propto C^{a}$์ $D_{opt} \propto C^{b}$๋ฅผ ์ ์ฉํด ๋ณธ ๊ฒฐ๊ณผ $a=0.49$์ $b=0.51$์ ์ป์ ์ ์์๋ค.
2-3. Approach 3: parametric loss ํจ์ ์ ์ฉ
approach 3์ ๋ํ ์ค๋ช ์ ๊ทธ๋ฆผ 4๋ฅผ ๋ณด๊ณ ์ค๋ช ํ๋๋ก ํ๊ฒ ๋ค.
2-4. Optimal model scaling
3๊ฐ์ approach์ ๋ํด ์ฆ๊ฐ๋ training compute์ ๋ฐ๋ฅธ ์ธก์ ๋ ํ๋ผ๋ฏธํฐ์ ๋ฐ์ดํฐ scaling์ ๋ค์๊ณผ ๊ฐ๋ค.
๋ ผ๋ฌธ์์ 3๊ฐ์ approach๋ ์๋ก ๋ค๋ฅธ fitting methodology์ trained model์ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ ํ๋ผ๋ฏธํฐ์ ํ ํฐ์ ์ต์ scaling์ ๋ํด ๋น์ทํ ์์ธก์ ๋ด๋๋๋ค. ๋ชจ๋ approach๋ compute budget์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฌ์ด์ฆ์ training data์ ์์ ๊ฑฐ์ ๋๊ฐ์ ๋น์จ๋ก ์ฆ๊ฐํด์ผ ํ๋ค๊ณ ๋ณด์ฌ์ค๋ค.
๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ์ ์ํ๋ฉด ํ์ฌ LLM๋ค์ ์๋นํ over-size ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token์ ์๋ ๋๋ฑํ ๋น์จ๋ก scale ๋์ด์ผ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
3. Chinchilla
์น์ 2์ ๋ถ์์ ๊ธฐ๋ฐํด์, Gopher compute budget์ ๋ํ ์ต์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ 40B์์ 70B ์ฌ์ด์ ํ๋ผ๋ฏธํฐ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๊ฐ์ค์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ธ 70B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ 1.4T ๊ฐ์ ํ ํฐ์ ์ฌ์ฉํด์ ํ๊ฐํ์๋ค. ์ด ์น์ ์์๋ Chinchilla๋ผ ๋ถ๋ฅด๋ ์ด ๋ชจ๋ธ์ Gopher์ ๋ค๋ฅธ LLM๋ค๊ณผ ๋น๊ตํ์๋ค. Chinchilla์ Gopher๋ ๋๊ฐ์ ์์ FLOPs์ ๋ํด ํ์ต๋์ง๋ง ๋ชจ๋ธ์ ์ฌ์ด์ฆ์ training token์ ์๋ ๋ค๋ฅด๋ค.
LLM์ pre-training ํ๋ ๊ฒ์ ์๋นํ ๊ณ์ฐ ๋น์ฉ์ด ๋ค์ง๋ง, downstream fine-tuning๊ณผ inference ๋ํ ์๋นํ ๊ณ์ฐ๋์ ํ์๋ก ํ๋ค. Chinchilla๋ Gopher๋ณด๋ค 4๋ฐฐ ์๊ธฐ ๋๋ฌธ์ memory footprint & ์ถ๋ก ๋น์ฉ์ด ๋ ์๋ค.
Chinchilla๋ฅผ ํ์ต์ํค๊ธฐ ์ํด ์ฌ์ฉ๋ ๋ชจ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ํ 4์ ๋ํ๋ ์๋ค. Chinchilla๋ ์๋ ํ์ ์์ธ๋ฅผ ์ ์ธํ๊ณ Gopher์ ๋๊ฐ์ ๋ชจ๋ธ ์ํคํ ์ฒ์ training setup์ ์ฌ์ฉํ๋ค.
3-1. Results
๋ ผ๋ฌธ์์๋ Chinchilla๋ฅผ ๋ค์ํ LLM๊ณผ ๋น๊ตํ๋ฉด์ ๊ด๋ฒ์ํ ํ๊ฐ๋ฅผ ์ํํ์๋ค. ํ๊ฐ๋ฅผ ์งํํ task subset์ ๋ค์์ ํ 5์ ๊ฐ๋ค.
Language modeling. Chinchilla๋ ๊ทธ๋ฆผ 5์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ The Pile์ ๋ชจ๋ ํ๊ฐ ์๋ธ์ ์์ Gopher๋ฅผ ์๋นํ ๋ฅ๊ฐํ์๋ค.
MMLU. ํ 6์ MMLU์์ Chinchilla์ ํ๊ท 5-shot ์ฑ๋ฅ์ด ๊ธฐ๋ก๋์ด ์๋ค. ์ด ๋ฒค์น๋งํฌ์์ Chinchilla๋ Gopher๋ณด๋ค ํจ์ฌ ์์์๋ ๋ถ๊ตฌํ๊ณ ์๋นํ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
๊ทธ๋ฆผ 6์์๋ ์ธ๋ถํ๋ task์์ Chinchilla์ Gopher ๊ฐ์ ๋น๊ต๋ฅผ ๋ณด์ฌ์ค๋ค. ์ ๋ฐ์ ์ผ๋ก Chinchilla๋ ๋ค์ํ ์ฃผ์ task์์ ์ฑ๋ฅ์ ๊ฐ์ ์์ผฐ๋ค.
Rading comprehension. ์ต์ข ๋จ์ด ์์ธก ๋ฐ์ดํฐ์ LAMBADA์์ Chinchilla๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค.
BIG-bench. ๋๊ฐ์ BIG-bench task์์ Chinchilla๋ฅผ ๋ถ์ํ์๋ค. MMLU์ ์ ์ฌํ๊ฒ Chinchilla๋ Gopher๋ฅผ ๋๋ถ๋ถ์ ์ฃผ์ task์์ ๋ฅ๊ฐํ์๋ค(๊ทธ๋ฆผ 7).
4. Discussion & Conclusion
LLM training์ ๋ํ ํ์ฌ ์ถ์ธ๋ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ ์์ฒญ ์ฆ๊ฐํ์์ง๋ง, ํ ํฐ์ ์๋ ์ ์ฒด๋์ด ์๋ค. ๋ ผ๋ฌธ์์๋ ๋์ฑ ํฐ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ๊ฒฝ์์ ๋๊ฐ์ compute budget์์ ์๋นํ underperform ํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค๋ ๊ฐ์ค์ ์ธ์ ๋ค.
๋ ผ๋ฌธ์์๋ ์ด ๊ฐ์ค์ ์ฆ๋ช ํ๊ธฐ ์ํด ์ด 3 ๊ฐ์ง์ approach๋ฅผ ์ ์ํด์ ์ด 400๊ฐ ์ด์์ ๋ชจ๋ธ์ ์คํ ๊ฒฐ๊ณผ์ ๊ธฐ๋ฐํด์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token ์ ๊ฐ์ ์ต์ ์ ์ธํ ์ ์ฐพ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ approach๋ Gopher๊ฐ ์๋นํ over-size ํ๊ณ ๋๊ฐ์ compute budger์ ๋ํด ๋ ๋ง์ ๋ฐ์ดํฐ์์ ํ์ต๋ smaller model์ด ๋ ์ ์ํํ ๊ฒ์ด๋ผ๊ณ ์์ธกํ์๋ค.
๋ ผ๋ฌธ์์๋ ๋์ compute budget์์ ๋ช๋ช $log(N_{opt}$์ ์ค๋ชฉํจ์ ๊ด์ฐฐํ์๋ค. ์ด๋ ์ฐ๋ฆฌ๊ฐ large model์ ์ต์ ์ฌ์ด์ฆ๋ฅผ overestimate ํ์๋ค๋ ๊ฒ์ ์ ์ํ๋ค. Chinchilla์ Gopher ๊ฐ์ ๋น๊ต๋ ์ฑ๋ฅ ์์ธก์ ์ ์ฆํ๊ฒ ๋ง๋ค์๊ณ , ๋๊ฐ์ compute budget์์ ๋ ๋์ training์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ผ๋ฌธ์์ ๋งํ๊ณ ์ ํ๋ ๊ฒ์ ๊ธฐ์กด์ scaling law๊ฐ ์๋ชป๋์๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์กด์๋ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ๋ ์ค์ํ๋ค๊ณ ์ฃผ์ฅํ๋๋ฐ, ์ด ๋ ผ๋ฌธ์ ์คํ์ ์ํ๋ฉด ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ฐ์ดํฐ์ ์์ ๋๋ฑํ ๋น์จ๋ก ์ฆ๊ฐ๋์ด์ผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํจ๋ค๋ ์ ์ ๋ฐ๊ฒฌํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2203.15556