The overview of this paper
๋ ผ๋ฌธ์์๋ 7B to 65B foundation LM์ ๋ชจ์์ธ LLaMA๋ฅผ ์๊ฐํ์๋ค. ์ด ๋ชจ๋ธ์ ์ ์กฐ ๊ฐ์ ํ ํฐ์์ ํ์ต๋์๊ณ , publicly available ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ ํ์ต๋ง์ผ๋ก๋ SoTA ๋ชจ๋ธ์ ๋ฌ์ฑํ ์ ์์ ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํนํ LLaMA-13B๋ ๊ฑฐ์ ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ์์ GPT-3์ ๋ฅ๊ฐํ๊ณ , LLaMA-65B๋ Chinchilla-70B์ PaLM-540B ๊ฐ์ ์ต๊ณ ์ ๋ชจ๋ธ๊ณผ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ํ์์ ์ธ ์ ์ ์ด ๋ชจ๋ธ๋ค์ ๋ชจ๋ research community์ ๊ณต๊ฐ๋์๋ค๋ ์ ์ด๋ค.
Table of Contents
1. Introduction
2. Approach
3. Main Results
4. Instruction Finetuning
5. Conclusion
1. Introduction
์ด์ ์ ์ฐ๊ตฌ(Training Compute-Optimal Large Language Models)๊ฐ ๋ณด์ฌ์ค ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๋ฅด๋ ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์ฃผ์ด์ง compute budget์ ๋ํ best performance๋ ํฐ ๋ชจ๋ธ์์ ์ค๋ ๊ฒ์ด ์๋๋ผ, ์์ ๋ชจ๋ธ์์ ๋ ๋ง์ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ฒ์ผ๋ก๋ถํฐ ์จ๋ค๊ณ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ด์ ์ฐ๊ตฌ์ scaling law์ objective๋ ํน์ training compute์์ ์ด๋ป๊ฒ ๋ฐ์ดํฐ์ & ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ scaleํ๋์ง ๊ฒฐ์ ํ๋ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด objective๋ inference budget์ ๋ฌด์ํ์๋๋ฐ, ์ด๋ ํฐ ๋ชจ๋ธ์ ๋ค๋ฃฐ ๋ ํนํ ์ค์ํด์ง๋ค. ์ด ๋ฌธ๋งฅ์์ ์ฑ๋ฅ์ ํ๊น ๋ ๋ฒจ์ด ์ฃผ์ด์ง๋ฉด ์ ํธ๋๋ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํ ๊ฐ์ฅ ๋น ๋ฅธ ๋ชจ๋ธ์ ์๋์ง๋ง ์ถ๋ก ์์๋ ๊ฐ์ฅ ๋น ๋ฅธ ๋ชจ๋ธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ฑ๋ฅ์ ํน์ ๋ ๋ฒจ์ ๋๋ฌํ๊ธฐ ์ํ large model์ ํ์ต์ํค๋ ๊ฒ์ ๋น์ฉ์ด ๋น์ธ์ง ์์ ์๋ ์์ง๋ง, ๋ ๊ธธ๊ฒ ํ์ต๋ smaller model์ ์ถ๋ก ์์ ํจ์ฌ ๋ ๋น์ฉ์ด ์ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด ์ด์ ์ ์ฐ๊ตฌ์์๋ 10B ๋ชจ๋ธ์ด 200B ํ ํฐ์์ ํ์ตํ๋๋ก ์ถ์ฒํ์๋๋ฐ, ๋ณธ ๋ ผ๋ฌธ์์๋ 7B ๋ชจ๋ธ์ด 1T ์ด์์ ํ ํฐ์ ๋ํด์๋ ์ฑ๋ฅ ๊ฐ์ ์ ๊ณ์์ ์ผ๋ก ๋ณด์ฌ์คฌ๋ค.
๋ ผ๋ฌธ์์ ์ฃผ๋ชฉํ๋ ๋ถ๋ถ์ ๋ ๋ง์ ํ ํฐ์์์ ํ์ต์ผ๋ก ๋ค์ํ inference budget์์ ๊ฐ๋ฅํ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ LM ์๋ฆฌ์ฆ๋ฅผ ํ์ต์ํค๋ ค ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ด 7B to 65B ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ๊ธฐ์กด์ best LLM๊ณผ ๋น๊ตํ์ฌ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ LLaMA์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๋ชจ๋ธ์ด LLM์ ๋ํ ํ์ต๊ณผ ์ ๊ทผ์ ์ฉ์ดํ๊ฒ ํด์ค๋ค๋ผ๊ณ ๋ฏฟ๋๋ฐ, ์๋ํ๋ฉด LLaMA๋ ํ๋์ GPU์์๋ ๋์๊ฐ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค! ๐ฒ
Chinchilla, PaLM, GPT-3์ ๋ฌ๋ฆฌ ๋ ผ๋ฌธ์์๋ LLaMA๋ฅผ open-source๋ก ๋ง๋ค๊ธฐ ์ํด ๊ธฐ์กด์ not publicly available & undocumented ํ๋ ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ, ์ค์ง publicly available data๋ง์ ์ฌ์ฉํ์๋ค. ๋ช ๊ฐ์ง ์์ธ์ธ ๋ชจ๋ธ๋ค(OPT, GPT-NeoX, BLOOM, GLM)๋ ์์ง๋ง ์ด ๋ชจ๋ธ๋ค์ PaLM-62B & Chinchilla์ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง ๋ชปํ๋ค.
2. Approach
๋ ผ๋ฌธ์ training approach๋ ์ด์ ์ฐ๊ตฌ(GPT-3, PaLM)์ ์ ์ฌํ method๋ฅผ ์ฌ์ฉํ์๊ณ , Chinchilla์ scaling law์์ ์๊ฐ์ ๋ฐ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด optimizer๋ฅผ ์ฌ์ฉํด์ ๋ง์ ์์ textual data์์ large Transformer๋ฅผ ํ์ต์์ผฐ๋ค.
2-1. Pre-training Data
๋ ผ๋ฌธ์ training ๋ฐ์ดํฐ์ ์ ํ 1์์ ์๊ฐ๋์ด ์๋ ๊ฒ์ฒ๋ผ ๋ค์ํ ๋๋ฉ์ธ ์ธํธ๋ฅผ ์ปค๋ฒํ๋ ์ฌ๋ฌ ์์ค์ mixture์ด๋ค. ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ๋ํด์ ๋ค๋ฅธ LLM์ ํ์ต์ํค๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์์ค๋ฅผ ์ฌ์ฌ์ฉํ์๋ค. ๋ฌผ๋ก ์ด๋๋ publicly available ํ ๋ฐ์ดํฐ๋ง ์ถ๊ฐ์์ผฐ๋ค.
Tokenizer. ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ๋ฅผ byte pair encoding(BPE) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ํ ํฐํ ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ ์ซ์๋ ๊ฐ๋ณ ์ซ์๋ก ๋๋์๋๋ฐ ์ด๋ unknown UTF-8 ์บ๋ฆญํฐ๋ก ๋ถํด๋ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๋ฐ์ ์ผ๋ก ๋ ผ๋ฌธ์ ์ ์ฒด training ๋ฐ์ดํฐ์ ์ ํ ํฐํ ํ์ ๋๋ต 1.4T ๊ฐ์ ํ ํฐ์ ๊ฐ์ง๊ฒ ๋๋ค. ๋๋ถ๋ถ์ training ๋ฐ์ดํฐ์ ๋ํด ๊ฐ ํ ํฐ์ training ์ค์ ํ ๋ฒ๋ง ์ฌ์ฉ๋๋ค. Wikipedia์ Books ๋๋ฉ์ธ์ ๋ํด์๋ ์์ธ์ ์ผ๋ก ๊ฑฐ์ 2 ์ํญ์ ์ํํ๋ค.
2-2. Architecture
์ต๊ทผ์ LLM์ ๋ฐ๋ผ์ ๋ ผ๋ฌธ์ ๋คํธ์ํฌ๋ Transformer์ ๊ธฐ๋ฐ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ๊ทธ ํ์ ์ ์๋ ๋ค์ํ ๊ฐ์ ์ ์ ํ์ฉํ๊ณ PaLM๊ณผ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์์ ์ฌ์ฉ๋ method๋ฅผ ํ์ฉํ์๋ค.
Pre-normalization [GPT-3]. ํ์ต ์์ ์ฑ์ ๊ฐ์ ์ํค๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ output์ ์ ๊ทํํ๋ ๋์ ์ ๊ฐ transformer sub-layer์ input์ ์ ๊ทํํ์๋ค. ์ด๋ฅผ ์ํด RMSNorm ์ ๊ทํ ํจ์๋ฅผ ์ฌ์ฉํ์๋ค.
SwiGLU acivation function [PaLM]. ์ฑ๋ฅ ๊ฐ์ ์ ์ํด ReLU ๋น์ ํ ํ์ฑํ ํจ์๋ฅผ SwiGLU ํ์ฑํ ํจ์๋ก ๋์ฒดํ์๋ค. ๋ ผ๋ฌธ์์๋ PaLM์ $4d$ ์ฐจ์ ๋์ ์ $\frac {2}{3}4d$ ์ฐจ์์ ์ฌ์ฉํ์๋ค.
Rotary Embeddings [GPTNeo]. absolute positional embedding์ ์ ๊ฑฐํ๊ณ , ๋์ ์ rotary positional embedding(RoPE)๋ฅผ ๋คํธ์ํฌ์ ๊ฐ ๋ ์ด์ด์ ์ฌ์ฉํ์๋ค.
ํ์ดํผ ํ๋ผ๋ฏธํฐ์ ๋ํ ๋ํ ์ผ์ ํ 2์ ๋ํ๋ ์๋ค.
Optimizer. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ AdamW optimizer์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ cosine learning rate ์ค์ผ์ค์ ์ฌ์ฉํ์๋ค. weight decay๋ 0.1์ ์ฌ์ฉํ์๊ณ , gradient clipping์ 1.0์ ์ฌ์ฉํ์๋ค.
2-3. Efficient implementation
๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ training speed ๊ฐ์ ์ ์ํด ์ฌ๋ฌ optimization์ ๋ง๋ค์ด์ ์ฌ์ฉํ์๋ค. ์ฒซ ๋ฒ์งธ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๋ฐํ์์ ์ค์ด๊ธฐ ์ํด casual multi-head attention์ ์ฌ์ฉํด์ attention ๊ฐ์ค์น๋ฅผ ์ ์ฅํ์ง ์๊ณ key/query score๋ฅผ ๊ณ์ฐํ๊ธฐ ์์์ผ๋ก์จ ์ด๋ฅผ ๋ฌ์ฑํ์๋ค.
training ํจ์จ์ฑ ๊ฐ์ ์ ์ํด backward pass ์ค์ ์ฌ๊ณ์ฐ๋๋ activation์ ์์ ์ค์๋ค. ์ด๋ linear layer์ ์ถ๋ ฅ ๊ฐ์ ๊ณ์ฐ ํ๋๋ฐ ๋ง์ ๋น์ฉ์ด ๋๋ actuvation์ ์ ์ฝํ ์ ์๊ฒ ํด ์ค๋ค. ์ด๋ transformer layer๋ฅผ ์ํ backward ํจ์๋ฅผ ๊ตฌํํจ์ผ๋ก์จ ๋ฌ์ฑํ์๋ค. ์ด๋ฌํ optimization์ผ๋ก๋ถํฐ ์ต๋๋ก ์ด์ต์ ์ป๊ธฐ ์ํด ๋ชจ๋ธ & sequence ๋ณ๋ ฌํ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ฌ์ผ ํ ํ์๊ฐ ์๋ค.
3. Main Results
์ด์ ์ ์ฐ๊ตฌ๋ค์ ๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋ zero-shot & few-shot task๋ก ๊ณ ๋ คํด์ ์ด 20๊ฐ์ ๋ฒค์น๋งํฌ์ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ์๋ค.
- Zero-shot: task์ textual description & test example์ ์ ๊ณต
- Few-shot: task์ few example์ ์ ๊ณต
๋ ผ๋ฌธ์์๋ LLaMA๋ฅผ ๋ค๋ฅธ non-publicly available foundation LM๋ค๊ณผ ๋น๊ตํ์๋ค: GPT-3, Gopher, Chinchilla, PaLM. ๋ฟ๋ง ์๋๋ผ open-sourced OPT ๋ชจ๋ธ๋ค๊ณผ๋ ๋น๊ตํ์๋ค: GPT-J, GPT-Neo. ๊ทธ๋ฆฌ๊ณ ์น์ 4์์๋ LLaMA๋ฅผ OPT-IML๊ณผ Flan-PaLM ๊ฐ์ ๋ค๋ฅธ instruction-tuned ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์๋ค.
์คํ ๊ฒฐ๊ณผ๋ ์ ๋ง ๋ง์ ๊ฒ๋ค์ด ์์ง๋ง, ๋ค ๋ค๋ค๋ณด๊ธฐ์๋ ์์ด ๋ง๊ธฐ์ ์ค์ํ task์ธ MMLU์์์ ์ฑ๋ฅ๋ง ์ดํด๋ณด๋๋ก ํ๊ฒ ๋ค.
MMLU. ๋ค์ํ ๋๋ฉ์ธ์ ์ง์์ ์ปค๋ฒํ๋ multiple choice question์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ MMLU task์์์ ์ฑ๋ฅ์ ๋ถ์ํ์๋ค. ๋ฒค์น๋งํฌ๋ก๋ถํฐ ์ ๊ณต๋๋ example์ ์ฌ์ฉํด์ ๋ชจ๋ธ์ 5-shot setting์์ ํ๊ฐํ์๋ค(ํ 3). ์ด ๋ฒค์น๋งํฌ์์ LLaMA-65B๋ ๋๋ถ๋ถ์ ๋๋ฉ์ธ์์ Chinchilla-70B์ PaLM-540B๋ณด๋ค ์ด์ง ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฐ ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ฒ ๋ ์ ์ฌ์ ์ธ ์ด์ ๋ pre-training ๋ฐ์ดํฐ์ books & academic paper์ ๋ฐ์ดํฐ ์์ด ์ ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณธ๋ค.
3-1. Evolution of performance during training
๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ ๊พธ์คํ ๊ฐ์ ๋๊ณ ์๊ณ , ๋ชจ๋ธ์ perplexity์ ์๊ด ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค(๊ทธ๋ฆผ 1).
4. Instruction Finetuning
๋ ผ๋ฌธ์์๋ instruction ๋ฐ์ดํฐ์์์ ๊ฐ๋ตํ fine-tuning์ MMLU์์ ๊ฐ์ ์ ์ด๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฏธ non-fineuned ๋ฒ์ ์ LLaMA-65B๋ basic instruction์ ๋ฐ๋ฅผ ์ ์์ง๋ง, ์์ฃผ ์์ ์์ fine-tuning์ MMLU์์์ ์ฑ๋ฅ์ ๊ฐ์ ์ํจ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์๊ณ , ์ถ๊ฐ์ ์ผ๋ก instruction์ ๋ฐ๋ฅด๊ธฐ ์ํ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๊ฐ์ ์ํจ๋ค. ์ด๋ ๊ฒ instruction tuning ํ ๋ชจ๋ธ์ LLaMA-I๋ผ๊ณ ๋ถ๋ฅธ๋ค.
ํ 4์์ instruct model LLaMA-I์ MMLU์์์ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ๊ณ ๋ค๋ฅธ ๊ธฐ์กด์ instruction finetuned ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ์๋ค: OPT-IML, Flan-PaLM. instruction finetuning์ ๊ฐ๋จํจ์๋ ๋ถ๊ตฌํ๊ณ MMLU์์ 68.9%์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. LLaMA-I(65B)๋ MMLU์์ ๊ธฐ์กด instruction finetuned ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, ์์ง SoTA ๋ชจ๋ธ์ ๋นํด์๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
5. Conclusion
์ด ๋ ผ๋ฌธ์์๋ ๊ณต๊ฐ์ ์ผ๋ก ๊ณต๊ฐ๋ LM์ ์๋ฆฌ์ฆ๋ฅผ ๊ณต๊ฐํ์๊ณ , ์ด ๋ชจ๋ธ์ SoTA foundation ๋ชจ๋ธ์ ์คํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. LLaMA-13B๋ GPT-3๋ฅผ 10๋ฐฐ ๋ ์์ ์ฌ์ด์ฆ์์๋ ๋ถ๊ตฌํ๊ณ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , LLaMA-65B๋ Chinchilla-70B์ PaLM-540B์ ์คํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด์ ์ ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ, ๋ ผ๋ฌธ์์๋ publicly available ๋ฐ์ดํฐ์์๋ง ํ์ตํจ์ผ๋ก์จ SoTA๋ฅผ ๋ฌ์ฑํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ถ๊ฐ์ ์ผ๋ก ์ด ๋ชจ๋ธ์ instruction์์ ํ์ต์ํด์ผ๋ก์จ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ LLaMA๊ฐ ๊ธฐ์กด LLM๋ค๊ณผ ๋ค๋ฅธ ์ ์ LLaMA๋ reaserch community์ ๊ณต๊ฐ๋์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2302.13971