The overview of this paper
์ด์ ์ ์ฐ๊ตฌ(Self-Instruct)์์๋ human-written instruction ์์ด machine-generated instruction๋ง์ ์ฌ์ฉํด์ LLM์ fine-tune ํด์ ์๋ก์ด task์ ๋ํด์ ์ข์ zero-shot ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๋ ผ๋ฌธ์์๋ GPT-4๋ก instruction data๋ฅผ ๋ง๋ค์ด์ LLM fine-tuning์ ์ฌ์ฉํ๊ณ ์ ํ์๋ค. ๋ํ GPT-4๋ก๋ถํฐ ํผ๋๋ฐฑ & ๋น๊ต ๋ฐ์ดํฐ ๋ํ ์์งํด์ ์ข ํฉ์ ์ธ ํ๊ฐ์ reward model training์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ ์ ํ์๋ค.
Table of Contents
1. Introduction
2. Dataset
3. Instruction-Tuning Language Models
4. Experimental Results
1. Introduction
LLM์ ๋ํ instruction-tuning์ SoTA๋ฅผ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ GPT-4๋ฅผ self-instruct tuning์ ๋ํ teacher๋ก ์ฌ์ฉํ ๊ฒ์ ์ ์ํ์๋ค. ์ด ๋ ผ๋ฌธ์์ ๋ง๋ค์ด์ง contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- GPT-4 data: ์์ด์ ์ค๊ตญ์ด ๋ฒ์ ์ 52K ๊ฐ์ instruction-following dataset์ ํฌํจํ๋ GPT-4์ ์ํด ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํ์๋ค. ๊ทธ๋ฆฌ๊ณ 3๊ฐ์ instruction-tuned model์ output์ ํ๊ฐํ๋ GPT-4-generated feedback ๋ฐ์ดํฐ ๋ํ ๊ณต๊ฐํ์๋ค.
- Models & Evaluation: GPT-4-generated ๋ฐ์ดํฐ์ ๊ธฐ๋ฐํด์, ๋ ผ๋ฌธ์์๋ instruction-tuned LLaMA ๋ชจ๋ธ๊ณผ reward model์ ๊ฐ๋ฐํ์๋ค. instruction-tuned LLM์ ํ๋ฆฌํฐ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด์, ๋ ผ๋ฌธ์์๋ test sample์์ 3๊ฐ์ metric์ ์ฌ์ฉํ์ฌ ํ๊ฐํ์๋ค: 3๊ฐ์ alignment ๊ธฐ์ค์์ human evaluation, GPT-4์ ํผ๋๋ฐฑ์ ํ์ฉํ automatic evaluation, ROUGE-L.
2. Dataset
Data Collection. ๋ ผ๋ฌธ์์๋ Alpaca ๋ฐ์ดํฐ์ ์์ ์์ง๋ 52K ๊ฐ์ instruction data๋ฅผ ์ฌ์ฌ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ instruction, input, output์ ํํ๋ก ์ด๋ฃจ์ด์ ธ ์๋๋ฐ ๊ฐ๊ฐ์ด ๋ดํฌํ๊ณ ์๋ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- instruction: ๋ชจ๋ธ์ด ์ํํด์ผ ํ๋ task๋ฅผ ๋ํ๋
- input: task์ ๋ํ input. task์ ๋ฐ๋ผ์ ์์ ์๋ ์๊ณ ์์ ์๋ ์์
- output: LLM์ ์ฌ์ฉํ์ฌ instruction instance์ ๋ํด ์๋ต
Alpaca ๋ฐ์ดํฐ์ ์์๋ output์ด GPT-3.5๋ฅผ ์ฌ์ฉํด์ ์์ฑ๋์์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ ๊ทธ ๋์ ์ GPT-4๋ฅผ ์ฌ์ฉํ์ฌ output์ ์์ฑํด๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ ๋ค์์ 4๊ฐ์ง ๋ฐ์ดํฐ์ ์ ์์ฑํ์๋ค.
3. Instruction-Tuning Language Models
3-1. Self-Instruct Tuning
๋ ผ๋ฌธ์์๋ LLaMA 7B checkpoint์ supervised fine-tuning์ ์ฌ์ฉํด์ 2๊ฐ์ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค.
- LLaMA-GPT4: GPT-4์ ์ํด ์์ฑ๋ 52K ๊ฐ์ instruction-following data์์ ํ์ต๋์์
- LLaMA-GPT4-CN: GPT-4๋ก๋ถํฐ 52K ๊ฐ์ Chinese instruction-following data์์ ํ์ต๋์์
3-2. Reward Models
Reinforcement Learning from Human Feedback(RLHF)๋ LLM์ ๋์ฑ ์ ์ฉํ๊ฒ ๋ง๋ค๊ธฐ ์ํด LLM์ ํน์ฑ์ human preference์ alignํ๋๋ฐ ๋ชฉํ๋ฅผ ๋๋ค. ์ด๋ฌํ RLHF์ ์ค์ํ ์์๊ฐ reward modeling์ธ๋ฐ, ์ฌ๊ธฐ์ ๋ฌธ์ ๋ prompt์ response๊ฐ ์ฃผ์ด์ง๋ฉด ์ค์นผ๋ผ ๋ณด์์ ์์ธกํ๋ ํ๊ท ์์ ์ผ๋ก ๊ณต์ํ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ณดํต ๋๊ท๋ชจ ๋น๊ต ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ค. ๊ทธ๋์ ํ์กดํ๋ open-source model๋ค์ธ Alpaca, Vicuna, Dolly๋ ๋น๊ต ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง์ ๋น์ผ ๋น์ฉ ๋๋ฌธ์ RLHF๋ฅผ ํฌํจํ์ง ์๋๋ค. ๋ฐ๋ฉด์ ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ GPT-4๊ฐ ์ค์๋ฅผ ์ฐธ์งํ๊ณ ์ค์ค๋ก ๊ณ ์น ์ ์์ผ๋ฉฐ ์๋ต์ ํ๋ฆฌํฐ๋ฅผ ์ ํํ๊ฒ ํ๊ฐํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ๋์ RLHF์ ๋ํ ์ฐ๊ตฌ๋ฅผ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ GPT-4๋ฅผ ์ฌ์ฉํด์ ๋น๊ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์๋ค.
๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์๋ก ๋ค๋ฅธ ์๋ต์ ํ๊ฐํ๊ธฐ ์ํด OPT 1.3B์ ๊ธฐ๋ฐํ reward model์ ํ์ต์์ผฐ๋ค. ํ๋์ prompt $\textbf{x}$์ $K$ ๊ฐ์ ์๋ต์ ํฌํจํ๋ ๋น๊ต ๋ฐ์ดํฐ์ ๊ฐ instance์ ๋ํด, GPT-4๋ ๊ฐ ์๋ต์ ๋ํด $s \in [1, 10]$์ score๋ฅผ ์ง์ ํ๋ค. ์ฌ๊ธฐ์๋ ์ด instance๋ก๋ถํฐ ๋ง๋ค์ด์ง $C_{2}^{K}$ ๊ฐ์ ๋ ํนํ ์์ด ์๊ณ , ๊ฐ ์์ $(y_{l}, y_{h})$์ด๋ค. reward model $r_{\theta}$๋ $\theta$์ ์ํด ํ๋ผ๋ฏธํฐํ ๋๊ณ , ๋ค์์ objective๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋๋ค: $min log(\sigma(r_{\theta}(x, y_{h}) - r_{\theta}(\textbf{x}, y_{l})))$. ๋น๊ต ๋ฐ์ดํฐ์ ๋ถํฌ๋ ๋ค์์ ๊ทธ๋ฆผ 2์ ๊ฐ๋ค.
4. Experimental Results
4-1. Benchmarks
์ด๋ฏธ ์๋ ค์ ธ ์๋ ๊ฒ์ฒ๋ผ LLM ํ๊ฐ๋ ์๋นํ ์ด๋ ต๋ค,, ๋ ผ๋ฌธ์ ๋ชฉํ๋ GPT-4 data์์ self-instruct tune๋ ๋ชจ๋ธ์ unseen instruction์์ ํ๊ฐํ๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์ ํ๊ฐ๋ฅผ ์ํด ์ฌ์ฉ๋ 3๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- User-Oriented-Instruction-252: 71๊ฐ์ user-oriented application์ ์๊ฐ์ ๋ฐ์ ์๋์ผ๋ก ์์ ๋ 252๊ฐ์ instruction์ด๋ค.
- Vicuna-Instructions-80: 80๊ฐ์ ์ด๋ ค์ด question๊ณผ ํจ๊ป GPT-4๋ก ์ข ํฉ๋ ๋ฐ์ดํฐ์ .
- Unnatural Instructions: 15๊ฐ์ ์๋์ผ๋ก ์ ์๋ example๋ก๋ถํฐ 3-shot in-context-learning์ ์ฌ์ฉํด์ text-davinci-002๋ก ์ข ํฉ๋ 68,478๊ฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ์ .
4-2. Human Evaluation with Alignment Criteria
๋ ผ๋ฌธ์ instruction-tuned LLM์ alignment ํ๋ฆฌํฐ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ Anthropic์ ์ฐ๊ตฌ์ alignment ๊ธฐ์ค์ ๋ฐ๋๋ค: helpful, honest, harmless(HHH). ์ด๋ฌํ ๊ธฐ์ค์ AI ์์คํ ์ด human value์ ์ผ๋ง๋ ์ align ๋์ด ์๋์ง๋ฅผ ํ๊ฐํ๋๋ฐ ์ฌ์ฉ๋๋ค. ์ด์ ๋ํ human evaluation ๊ฒฐ๊ณผ์ ํ์ด ์ฐจํธ๊ฐ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๋ค.
์ฒซ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ 2๊ฐ์ instruction-tuned LLaMA model๋ก๋ถํฐ ์์ฑ๋ ์๋ต์ ํ๋ฆฌํฐ๋ฅผ ๋น๊ตํ์๋ค. ๊ฐ๊ฐ์ GPT-4์ GPT-3์ ์ํด ์์ฑ๋ ๋ฐ์ดํฐ์์ fine-tune ๋์๋ค. ์ฌ๊ธฐ์ LLaMA ๋ชจ๋ธ์ GPT-3๊ฐ ์์ฑํด๋ธ instruction์์ fine-tuneํ ๋ชจ๋ธ์ Alpaca ๋ชจ๋ธ์ด๋ค. ๊ทธ๋ฆผ 3(a)๋ฅผ ๋ณด๋ฉด 'Helpfulness' ๊ธฐ์ค์์ ๋ณด๋ฉด GPT-4๊ฐ ํ์คํ ์น์๋ผ๋ ๊ฒ์ ์ ์ ์๋ค. ํ์ง๋ง 'Honesty'์ 'Harmlessness' ๊ธฐ์ค์์๋ ๋๋ถ๋ถ์ ํฌํ๊ฐ tie group์ผ๋ก ๊ฐ ๊ฒ์ ์ ์ ์๋ค. ์ฌ์ง์ด๋ GPT-3(Alpaca)๊ฐ ์กฐ๊ธ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค.
๋ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ GPT-4-instruction-tuned LLaMA ๋ชจ๋ธ๊ณผ teacher model GPT-4์ ๋ํด ๊ทธ๋ฆผ 3(b)์์ ๋น๊ตํ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด 3๊ฐ์ ์นดํ ๊ณ ๋ฆฌ์์ ์ผ๊ด๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค: GPT-4-instruction-tuned LLaMA๋ ๊ธฐ์กด์ GPT-4์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค! ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ํตํด GPT-4 generated data์์์ ํ์ต์ ๊ธฐ์กด์ GPT-4์ ๋งค์ฐ ๋น์ทํ ์ฑ๋ฅ์ ์ด๋ ์ ์๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ ธ๋ค.
4-3. Comparison with SoTA using Automatic Evaluation
Automatic Evaluation with GPT-4. Vicuna Evaluation์ ๋ฐ๋ผ์, ๋ ผ๋ฌธ์์๋ 80๊ฐ์ unseen question์์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ์๋ต์ ์๋์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด GPT-4๋ฅผ ์ฌ์ฉํ์๋ค. ๊ฐ ํ๊ฐ์ ๋ํด ๋ ผ๋ฌธ์์๋ ๋ ๋ชจ๋ธ์ ์๋ต ๊ฐ์ GPT-4๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ฐํด์ 1๋ถํฐ 10์ ๊น์ง ์ ์๋ฅผ ๋งค๊ธฐ๊ฒ ํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ ๋ชจ๋ธ๋ค์ ChatGPT์ GPT-4 ๊ฐ์ ๊ฐ๋ ฅํ ๋ชจ๋ธ ๊ฐ๊ฐ๊ณผ ๋น๊ตํ์๋ค. ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 4์ ๋ํ๋ ์๋ค.
LLaMA-GPT4์ ๋ํด ๋ ผ๋ฌธ์์๋ ๋์ฝ๋ฉ ๊ฒฐ๊ณผ์ 2๊ฐ์ ์ธํธ๋ฅผ ์ ๊ณตํ์๋ค.
- question ๋น baseline ๋์ฝ๋ฉ ๊ฒฐ๊ณผ์ ํ๋์ ์๋ต
- question ๋น 5๊ฐ์ ์๋ต
ํ์์ ๋ํด reward model์ ์์ 1์์์ ์์ 5์๊น์ง ์์๊ฐ ๋งค๊ฒจ์ง 5๊ฐ์ ํ์ ์งํฉ์ผ๋ก ๊ทธ๋ฃนํ๋๋ ์๋ต์ ์์๋ฅผ ๋งค๊ธฐ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ๋ ผ๋ฌธ์์๋ baseline์ ๋ํด 5๊ฐ์ ranked group์ ๋น๊ตํ๊ณ ๊ทธ๋ฆผ 4(a,b)์์๋ ์๋ ์ ์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ChatGPT์ GPT-4 ํ๊ฐ๋ reward model์ ์ํด ์ ์๋๋ ์์์ ์ผ๊ด์ ์ธ๋ฐ, ์ด๋ ํผ๋๋ฐฑ ๋ฐ์ดํฐ์ ๊ฐ๊ณผ reward model์ ํจ๊ณผ๋ฅผ ์ค๋ช ํ๋ค.
๋ ผ๋ฌธ์์๋ ๋ชจ๋ ์ฑ๋ด์ ๊ทธ๋ฆผ 4(c,d)์์ ๋น๊ตํ๊ณ ์๋ค. LLaMA-GPT4๋ ์์ฃผ text-davinci-003์ ํ๋ํ๋ ๊ฒ(Alpaca)๊ณผ ๊ทธ๋ฅ LLaMA ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค: 7B LLaMA_GPT4๋ 13B Alpaca์ LLaMA๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, ์์ง ์ฌ๊ธฐ์๋ GPT-4์ ๊ฐ์ ์์ ์ ์ฑ๋ด์ ๋นํด ํฐ ๊ฐญ์ด ์กด์ฌํ๋ค.
๋ํ ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก ์ค๊ตญ์ด์์ ์ฑ๋ด์ ์ฑ๋ฅ์ ์ฐ๊ตฌํ์๋ค(๊ทธ๋ฆผ 5). ์ค๊ตญ์ด์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋ณธ ํฌ์คํ ์์๋ ์์ธํ๊ฒ ๋ค๋ฃจ์ง๋ ์๋๋ก ํ๊ฒ ๋ค.
๋ ผ๋ฌธ์์๋ LLaMA-GPT4์ GPT-4, Alpaca๋ฅผ unnatural instruction์์ ๋น๊ตํ์๋ค(๊ทธ๋ฆผ 6). ํ๊ท ROUGE-L score ๋ฉด์์, Alpaca๋ ๋ค๋ฅธ ๋ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ground truth response length๊ฐ ์ฆ๊ฐํ ๋ LLaMA-GPT4์ GPT-4๊ฐ ์ ์ง์ ์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ค๊ฐ ๊ธธ์ด๊ฐ 4๋ณด๋ค ๊ธธ ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด๊ฒ์ ์๋๋ฆฌ์ค๊ฐ ๋์ฑ ์ฐฝ์์ ์ผ ๋ ์ด ๋ชจ๋ธ๋ค์ด instruction์ ๋ ์ ๋ฐ๋ฅผ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์๋ก ๋ค๋ฅธ ์๋ธ์ ๊ฐ์ LLaMA-GPT4๋ GPT-4์ ํน์ฑ์ ๊ฐ๊น๊ฒ ๋ฐ๋ฅธ๋ค. sequence ๊ธธ์ด๊ฐ ์งง์ ๋, LLaMA-GPT4์ GPT-4๋ ๊ฐ๋จํ ground truth answer๋ฅผ ํจ์ ํ๋ ์๋ต์ ์์ฑํ ์ ์์ง๋ง, ๋์ฑ chat-like ์๋ต์ ๋ง๋ค๊ธฐ ์ํด ์ถ๊ฐ์ ๋จ์ด๋ฅผ ์ถ๊ฐํ๋๋ฐ, ์ด๋ ๋ฎ์ ROUGE-L score๋ฅผ ์ด๋๊ฒ ๋๋ค.
์ถ์ฒ
https://arxiv.org/abs/2304.03277