The overview of this paper
LLM์ ๋ ๊ฐ์ง์ ๋จ๊ณ๋ก ํ์ต๋๋ค.
- general-purpose representation์ ํ์ตํ๊ธฐ ์ํด, raw text๋ก๋ถํฐ unsupervised pre-training์ ์ฌ์ฉ
- end task์ ์ฌ์ฉ์ ์ ํธ๋ฅผ align ํ๊ธฐ ์ํด ๋๊ท๋ชจ instruction tuning & RL์ ์ฌ์ฉ
์ด ๋ ๊ฐ์ง stage์ ์ค์์ฑ์ ์ธก์ ํ๊ธฐ ์ํด ์ด๋ ํ RL ๋๋ human preference modeling ์์ด ์ค์ง 1000๊ฐ์ ์ ์คํ๊ฒ ์ ์ ๋ prompt & response์์ ๊ธฐ์กด supervised loss๋ฅผ ์ฌ์ฉํด์ fine-tune ๋ LLaMA-65B์ธ LIMA๋ฅผ ํ์ต์์ผฐ๋ค. LIMA๋ ๋ณต์กํ ์ฟผ๋ฆฌ๋ฅผ ํฌํจํ๋ training ๋ฐ์ดํฐ์ ๋ช ๊ฐ์ง ์์์๋ง ํน์ ์๋ต ํ์์ ๋ฐ๋ฅด๋ ๋ฐฉ๋ฒ์ ํ์ตํ์ฌ ๋งค์ฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ฒ๋ค๊ฐ ๋ชจ๋ธ์ unseen task์ ๋ํด ๋์ฑ ์ ์ผ๋ฐํํ๋ ๊ฒฝํฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๋ชจ๋ ๊ฒ์ ์ข ํฉํ์ฌ, ๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ LLM์ ๊ฑฐ์ ๋ชจ๋ ์ง์์ pre-training ์ค์ ํ์ต๋๋ค๋ ๊ฒ์ ๊ฐ๋ ฅํ๊ฒ ์ ์ํ๊ณ ์ ํ๋ instruction training ๋ฐ์ดํฐ๋ high-quality output์ ์์ฑํ๊ธฐ ์ํด ๋ชจ๋ธ์ ๊ฐ๋ฅด์น๊ธฐ ์ํด ํ์ํ๋ค.
Table of Contents
1. Introduction
2. Alignment Data
3. Training LIMA
4. Human Evaluation
5. Why is Less More? Ablations
6. Multi-Turn Dialogue
7. Discussion
1. Introduction
LM์๊ฒ general-purpose representation์ ํ์ตํ ์ ์๋๋ก ํด์ฃผ๋ ๊ฒ์ ์ด๋ ํ language understanding & generation task๋ก๋ transfer๊ฐ ๊ฐ๋ฅํ๋ค. ์ด๋ฅผ ์ํด instruction tuning, multi-million-example ๋ฐ์ดํฐ์ , RLHF๊ฐ ์ ์๋์๋ค. ํ์กดํ๋ alignment method๋ ChatGPT ๋ ๋ฒจ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์๋นํ ์์ ๊ณ์ฐ๋ & ๊ตฌ์ฒด์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์์๋ 1,000๊ฐ์ ์์ ๋ training example์์ fine-tune ๋จ์ผ๋ก์จ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
๋ ผ๋ฌธ์์๋ alignment๊ฐ ๋ชจ๋ธ์ด ์ด๋ฏธ pre-training ์ค์ ์ป์ ์ง์๊ณผ ๋ฅ๋ ฅ์ ๋๋ฌ๋ด๊ธฐ ์ํด ๋ชจ๋ธ์ด ์ฌ์ฉ์๋ค๊ณผ ์ํธ์์ฉํ๊ธฐ ์ํ ์คํ์ผ ๋๋ ํ์์ ํ์ตํ๋ ๊ฐ๋จํ ํ๋ก์ธ์ค์ผ ์๋ ์๋ค๊ณ ๊ฐ์ ํ์๋ค. ์ด ๊ฐ์ค์ ํ ์คํธํ๊ธฐ ์ํด์ ์ค์ ์ฌ์ฉ์ prompt์ high-quality ์๋ต์ ๊ฐ๊น์ด 1,000๊ฐ์ example์ ์์ ํ์๋ค. ๋ ผ๋ฌธ์์๋ ํ๋ฆฌํฐ์ ๋ค์์ฑ์ ์ํด Stack Exchange๋ wikiHow ๊ฐ์ ์ปค๋ฎคํฐ๋ ํฌ๋ผ์ผ๋ก๋ถํฐ 750๊ฐ์ top question์ ๊ณจ๋ผ์๋ค. ์ถ๊ฐ์ ์ผ๋ก ์๊ธฐ๋ก ์์ฑ๋ 250๊ฐ์ prompt์ response example์ ์์ฑํ์๋ค. ์ต์ข ์ ์ผ๋ก LLaMA-65B๋ฅผ ์ด 1,000๊ฐ์ demonstration์์ fine-tune ํ ๋ชจ๋ธ์ธ LIMA๋ฅผ ํ์ต์์ผฐ๋ค.
300๊ฐ์ ๊น๋ค๋ก์ด test prompt์์ LIMA์ ๋ค๋ฅธ SoTA ๋ชจ๋ธ๋ค์ ๋น๊ตํ์๋ค. human preference ์ฐ๊ตฌ์์, LIMA๋ RLHF-trained DaVinci003์ ๋ฅ๊ฐํ ๋ฟ๋ง ์๋๋ผ 52,000๊ฐ์ example์์ ํ์ต๋ 65B Alpaca๋ ๋ฅ๊ฐํ์๋ค. ๋น๋ก ์ฌ๋๋ค์ GPT-4, Claude, Bard์ ์๋ต์ LIMA์ ์๋ต๋ณด๋ค ๋ ์ ํธํ๊ธด ํ์์ง๋ง, ๊ทธ๋๋ ๊ฑฐ์ ๋น์ทํ ๋น์จ๋ก LIMA์ ์๋ต๋ ์ ํธ๋์๋ค. LIMA์ ์๋ต์ absolute scale์์ ๋ถ์ํด๋ณธ ๊ฒฐ๊ณผ 88%์ ์๋ต์ด prompt๋ฅผ ๋ง์กฑํ์๊ณ , 50%์ ์๋ต์ด ํ๋ฅญํ์๋ค.
Ablation ์คํ์ ๋ฐ์ดํฐ ํ์ง์ ์ต์ ํํ ๋ ํฐ ์ด๋๊ณผ ํจ๊ป prompt ๋ค์์ฑ์ ํ์ฅํ์ง ์๊ณ ๋ฐ์ดํฐ ์๋์ ํ์ฅํ ๋ ์ด๋์ด ํฌ๊ฒ ๊ฐ์ํจ์ ๋ณด์ฌ์ค๋ค. ๊ฒ๋ค๊ฐ ๋น๋ก 0๊ฐ์ dialogue example์ ๊ฐ์ง์๋ ๋ถ๊ตฌํ๊ณ LIMA๋ ๋ ผ๋ฆฌ ์ ์ฐํ multi-tuen dialogue๋ฅผ ์ํํ ์ ์์์ ์์๋ค. ์ด ๋ฅ๋ ฅ์ ์ค์ง 30๊ฐ์ hand-crafted dialogue chain์ ์ถ๊ฐํจ์ผ๋ก์จ ๊ทน์ ์ผ๋ก ๊ฐ์ ๋ ์ ์๋ค. ์ ๋ฐ์ ์ผ๋ก ์ด๋ฌํ ๊ฒฐ๊ณผ๋ pre-training์ ํ๊ณผ ๋๊ท๋ชจ instruction-tuning๊ณผ RL ๋ฐฉ๋ฒ์ ์ค์์ฑ์ ์ค๋ช ํ๋ค.
2. Alignment Data
๋ ผ๋ฌธ์์๋ Superficial Alignment Hypothesis๋ฅผ ์ ์ํ์๋ค.
๋ชจ๋ธ์ ์ง์๊ณผ ๋ฅ๋ ฅ์ ๊ฑฐ์ pre-training ์ค์ ํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ alignment๋ ์ฌ์ฉ์์ ์ํธ์์ฉ์
ํ ๋ ์ฌ์ฉ๋์ด์ผ ํ๋ ํฌ๋งท์ ํ์ ๋ถํฌ๋ฅผ ๊ฐ๋ฅด์น๋ค.
๋ง์ฝ ์ด ๊ฐ์ค์ด ์ฌ์ค์ด๋ผ๋ฉด ์ฌ๋๋ค์ ๋ณด๋ค ์์ example ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ PLM์ ์ถฉ๋ถํ tune ํ ์ ์์ด์ผ ํ๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ 1,000๊ฐ์ prompt & response ๋ฐ์ดํฐ์ ์ ์์งํ์๋ค. ์ฌ๊ธฐ์ output์ ์๋ก๋ผ๋ฆฌ ๋ฌธ์ฒด์ ์ผ๋ก alignํ์ง๋ง, input์ ๋ค์ํ๋ค. ํ 1์ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค์ ๋ํ ๊ฐ์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ๋ช ๊ฐ์ง ํต๊ณ๋ฅผ ์ ๊ณตํด ์ค๋ค.
2-1. Community Questions & Answers
๋ ผ๋ฌธ์์๋ 3๊ฐ์ community Q&A ์น์ฌ์ดํธ์์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์๋ค: Stack Exchange, wikiHow, PushShift Reddit Dataset. Stack Exchange & wikiHow๋ well-aligned ๋์ด ์์ง๋ง, Reddit updated answer๋ ์๊ธฐ๊ฑฐ๋ ๋์์ฑ ๊ธ์ด ๋ง๊ธฐ ๋๋ฌธ์ ์ ์ ํ ์คํ์ผ์ ๋ฐ๋ฅด๋ ์๋ต์ ์์ ํ๊ธฐ ์ํ ๋์ฑ ์๋์ ์ธ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค.
2-2. Manually Authored Examples
์จ๋ผ์ธ ์ปค๋ฎค๋ํฐ์์ ์ฌ์ฉ์๋ค์๊ฒ ์ํด ๋ฌผ์ด๋ด์ง๋ question์ ๋ํด ๋ ผ๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ๋ค์ํ์ํค๊ธฐ ์ํด author๋ก๋ถํฐ prompt๋ฅผ ์์งํ๋ค. ์ด๋ฅผ ์ํด ๊ฐ ๊ทธ๋ฃน๋น 250๊ฐ์ prompt๋ฅผ ์์ฑํ๋ ์ด 2๊ฐ์ง ๊ทธ๋ฃน์ author์ ๋์์ธํ๋ค.
- Group A: 200๊ฐ์ training์ ์ํ prompt + held-out dev set๋ฅผ ์ํ 50๊ฐ์ prompt
- Group B: ํํฐ๋ง ํ ๋จ์ 230๊ฐ์ prompt๋ฅผ test๋ฅผ ์ํด ์ฌ์ฉ
๋ ผ๋ฌธ์์๋ author๋ค์ด ์ง์ ์์ฑํ high-quality ์๋ต๊ณผ ํจ๊ป 200๊ฐ์ training prompt๋ฅผ ๋ณด์ถฉํ์๋ค. answer๋ฅผ author๋ค์ด ์์ฑํ๋ ์ค์ helpful AI assistant๋ฅผ ์ํ ์ ์ ํ ๊ท ์ผํ ํผ์ ์ธํ ํ๊ณ ์ ํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, question์ ๋ํ ์ธ์ ๊ณผ answer ์์ฒด๋ก ๋ง์ prompt์ ๋ต๋ณ์ด ์ ๊ณต๋๋ค. ์ฌ์ ์คํ๋ค์ ์ด๋ฌํ ํ๊ฒฐ๊ฐ์ ํ์์ด ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด ๋ชจ๋ธ์ด CoT์ "let's think step-by-step"์ ์ ์ฌํ ๊ฒ์ ํ์ฑํ ์ ์๋๋ก ๋์์ค๋ค๊ณ ๊ฐ์ ํ์๋ค.
๋ ผ๋ฌธ์์๋ 13๊ฐ์ ์ด๋ ์ ๋ toxicity ๋๋ ์ ์์ ์ฐฌ training prompt๋ ํฌํจํ์๋ค. ์๋ต์ ๋ถ๋ถ์ ๋๋ ์์ ํ ๋ช ๋ น์ ๊ฑฐ์ ํ๋๋ก ์ ์คํ๊ฒ ์์ฑํ์๊ณ , ์ assistant๊ฐ ์๋ต์ ํ ์ ์๋์ง ๋ํ ์ค๋ช ํ์๋ค. ํ ์คํธ ์ธํธ์๋ ์ด์ ์ ์ฌํ 30๊ฐ์ prompt๊ฐ ์กด์ฌํ๋ค.
๊ฒ๋ค๊ฐ author๋ค์ด ์์ฑํ example์ SuperNI๋ก๋ถํฐ 50๊ฐ์ training example์ ์ํ๋งํ์๋ค. ์ ์ฌ์ ์ธ ์ฌ์ฉ์ prompt์ ๋ถํฌ๋ Super-Natural Instructions์ task ๋ถํฌ์ ํ๋ฆผ์์ด ๋ค๋ฅด์ง๋ง, ์ง๊ฐ์ ์ด ์์ ์ํ์ด training example์ ์ ์ฒด ํผํฉ์ ๋ค์์ฑ์ ์ถ๊ฐํ๊ณ ์ ์ฌ์ ์ผ๋ก ๋ชจ๋ธ robust๋ฅผ ๋์ผ ์ ์๋ค๋ ๊ฒ์ด๋ค.
์์ ๋ค์ํ prompt์ ์์ง์ ์๋ต์ ์์ฑํ๋ ๊ฒ์ ํ๋ค๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ์ ํตํด ์๋์ ์ธ ๋ ธ๋์ ํผํ๊ณ , ํ๋ฆฌํฐ๋ณด๋ค ์์ ์ต์ ํํ๋๋ฐ ์ง์คํ์์ผ๋, ์ด ๋ ผ๋ฌธ์์๋ ๊ทธ๋ณด๋ค ๋ค์์ฑ๊ณผ ํ๋ฆฌํฐ์ ํจ๊ณผ์ ๋ํด ์กฐ์ฌํ์๋ค.
3. Training LIMA
๋ ผ๋ฌธ์์๋ ๋ค์์ ํ๋กํ ์ฝ์ ์ฌ์ฉํด์ LIMA๋ฅผ ํ์ต์์ผฐ๋ค. LLaMA-65B์์ ์์ํด์ 1,000๊ฐ์ example alignment training set์์ fine-tune ํ์๋ค. ๊ฐ ํ์๋ฅผ ๋ฌ๋ฆฌํ๊ธฐ ์ํด ๊ฐ ํํ์ ๋ง์ง๋ง์ ์คํ์ ํ ํฐ EOT๋ฅผ ์ถ๊ฐํ์๋ค. ์ด ํ ํฐ์ ์์ฑ์ ๋ฉ์ถ๋ EOS ํ ํฐ๊ณผ ๋๊ฐ์ ์ญํ ์ ํ์ง๋ง, pre-trained ๋ชจ๋ธ์ด ๊ธฐ์กด EOS ํ ํฐ์ ์ฃผ์ ํ์ ์๋ ์๋ ๋ค๋ฅธ ์๋ฏธ์์ ์ตํฉ์ ํผํ๋ค.
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ fine-tuning ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ๋ผ์ ์ฌ์ฉํ์๋ค. ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ํ์ธํด ์ฃผ๊ธธ ๋ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ perplexity๊ฐ ์์ฑ ํ๋ฆฌํฐ์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ง ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๊ณ , held-out 50-example dev set์ ์ฌ์ฉํด์ 5๋ฒ์งธ์์ 10๋ฒ์งธ epoch ๊ฐ์ checkpoint๋ฅผ ์๋์ผ๋ก ์ ํํ์๋ค.
4. Human Evaluation
๋ ผ๋ฌธ์์๋ LIMA๋ฅผ SoTA ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํจ์ผ๋ก์จ ํ๊ฐํ์๊ณ , LIMA๊ฐ RLHF ๊ธฐ๋ฐ DaVinci003๊ณผ 52,000๊ฐ์ example์์ ํ์ต๋ 65B Alpaca๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ GPT-4์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์๋ต์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ์๋ค. LIMA์ ์์ฑ์ ๋ถ์ํด ๋ณด๋ฉด 50%์ output์ ํ๋ฅญ(excellent)ํ๋ค๊ณ ํ๋จํ ๊ฒ์ ์ ์ ์๋ค. ๋ช ๊ฐ์ example์์์ ๊ฐ๋จํ fine-tuning์ SoTA์ ๊ฒฝ์ํ๊ธฐ์ ์ถฉ๋ถํ๋ค๋ ์ฌ์ค์ ์์ ์ธ์ด Superficial Alignment Hypothesis๋ฅผ ์ง์งํ๋ค.
4-1. Experimental Setup
LIMA๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋น๊ตํ๊ธฐ ์ํด ๊ฐ test prompt์ ๋ํด ํ๋์ ์๋ต์ ์์ฑํ๋ค. ๊ทธ๋ค์์ crowdworker์๊ฒ LIMA์ output๊ณผ ๋ค๋ฅธ baseline์ output ์ค ๋ฌด์์ ์ ํธํ๋์ง ๋ฌผ์ด๋ณด๊ณ , ์ด ์คํ์ ๋ฐ๋ณตํ๋ค. ๊ทธ๋ฆฌ๊ณ crowdworker๋ฅผ GPT-4๋ก ๋์ฒดํ์ ๋๋ ๋น์ทํ ์์ค์ ๋์๋ฅผ ์ฐพ์ ์ ์์๋ค.
Baselines. LIMA๋ฅผ 5๊ฐ์ baseline๊ณผ ๋น๊ตํ์๋ค: Alpaca-65B, DaVinci003, Bard, Claude, GPT-4.
Generation. ๊ฐ prompt์ ๋ํด nucleus sampling์ ์ฌ์ฉํด์ ๊ฐ baseline ๋ชจ๋ธ๋ก๋ถํฐ ํ๋์ ์๋ต์ ์์ฑ ํด๋๋ค. repitition penalty๋ฅผ ์ ์ฉํ๊ณ maximum token length๋ 2,048๋ก ์ ํํ์๋ค.
Methodology. ๊ฐ ์คํ ์์ annotator์๊ฒ ํ๋์ prompt์ ๊ฐ๋ฅํ 2๊ฐ์ ์๋ต(์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์์ ์์ฑ๋)์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ค์์ annotator๋ ๋ ์๋ต ์ค ๋ฌด์์ด ๋ ๋์์ง ํ๊ฐํ๋ค.
4-2. Results
๊ทธ๋ฆผ 1(์ผ์ชฝ)์ human preference ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ ๋ฐ๋ฉด์, ๊ทธ๋ฆผ 1(์ค๋ฅธ์ชฝ)์ GPT-4 preference์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ฒฐ๊ตญ์ ์ฌ๋๊ณผ GPT-4 ๋ ๋ค ๋๊ฐ์ ์ถ์ธ๋ฅผ ๋ณด์ด๊ณ ์๋ค. ๊ฐ ๋ชจ๋ธ๊ณผ์ ๋น๊ต์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- Alpaca-65B๋ 52๋ฐฐ ๋ ๋ง์ ๋ฐ์ดํฐ์์ ํ์ตํ์์๋ ๋ถ๊ตฌํ๊ณ LIMA๊ฐ ๋ ์ ํธ๋์์ ๐
- DaVinci003์ ๊ฐ์ฅ ์ฐ์ํ๋ค๊ณ ์ฌ๊ฒจ์ง๋ alignment method์ธ RLHF๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋์์ง๋ง ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ๐ฒ
- Bard๋ 42%๋ก ์ข ๋ ์ ํธ๋์์ง๋ง, ๋ฐ๊ฟ ๋งํ๋ฉด 58%๋ก LIMA์ ์๋ต์ Bard๋งํผ ์ข๋ค๋ ์๋ฏธ ๐
- Claude & GPT-4๋ ์ผ๋ฐ์ ์ผ๋ก LIMA๋ณด๋ค ๋์ ๋ชจ์ต์ ๋ณด์ฌ์คฌ์ ๐
4-3. Analysis
LIMA์ ๋ํ ํ๊ฐ๋ SoTA baseline์ ๊ดํด ํ๊ฐํ์๋ค. ๊ทธ๋ ์ง๋ง ์ด baseline๋ค์ training ์ค์ ์๋ง ๋ช ์ ์ค์ ์ฌ์ฉ์๊ฐ prompt์ ๋ ธ์ถ๋ผ์ highly-tune ๋ product์ด๋ค. ๋ ผ๋ฌธ์์๋ 50๊ฐ์ ๋๋ค ํ example์ ์๋์ผ๋ก ๋ถ์ํจ์ผ๋ก์จ absolute ํ๊ฐ ์ฒด๊ณ๋ฅผ ๋ง๋ค์๋ค.
- Fail: ์๋ต์ด prompt์ ์๊ตฌ ์ฌํญ์ ๋ง์กฑํ์ง ๋ชปํจ
- Pass: ์๋ต์ด prompt์ ์๊ตฌ ์ฌํญ์ ๋ง์กฑํจ
- Excellent: ๋ชจ๋ธ์ด prompt์ ๋ํด ํ๋ฅญํ ์๋ต ์ ๊ณต
Results. ๊ทธ๋ฆผ 3์ LIMA ์๋ต์ 50% ์ ๋๊ฐ ํ๋ฅญํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๊ณ , failure ์ผ์ด์ค์ ๋ํด์๋ ์ด๋ ํ ํธ๋ ๋๋ฅผ ํ์ธํ์ง ๋ชปํ๋ค. ๊ทธ๋ฆผ 3์ ์กฐ์ธ์ ํ๊ฑฐ๋ ๋ ์ํผ๋ฅผ ๋ง๋๋ ๊ฒ์ ๋ํ LIMA์ example output์ ๋ณด์ฌ์ค๋ค.
Out of Distribution. LIMA๋ 50๊ฐ์ ๋ถ์๋ example์ example์์ ์ด๋ป๊ฒ ์ํํ ๊น? 20๊ฐ์ Out-Of-Distribution example์์ ๋ถ์ํ ๊ฒฐ๊ณผ 20%์ ์๋ต์ Fail, 35%์ ์๋ต์ Pass, 45%์ ์๋ต์ Excellent๋ผ๋ ๊ฒ์ ์์๋ด์๋ค. ์ด ์คํ์ ๋งค์ฐ ์์ ์ํ์์ ์งํ๋์์ง๋ง, LIMA๋ training ๋ถํฌ ์ธ์์๋ ๋น์ทํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ด๋ ์ ์ผ๋ฐํํ๋ค๋ ์๋ฏธ์ด๋ค. ๊ทธ๋ฆผ 3์ standup์ ์์ฑํ๊ฑฐ๋ ํผ์๋ฅผ ์ํค๋ ๊ฒ์ ๋ฌผ์ด๋ณผ ๋, LIMA์ ๋ฆฌ์ก์ ์ ๋ณด์ฌ์ค๋ค.
Safety. ์ต์ข ์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ safety ๊ด๋ จ example์ ์กฐ๊ธ๋ง ์คฌ๋๋ฐ๋ ๊ด์ฐฎ์์ง์ ๋ํด์ ๋ถ์ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, 30๊ฐ์ ๋ฏผ๊ฐํ prompt์ ๋ํด์ LIMA๋ 80%์ prompt์์ ์์ ํ๊ฒ ์๋ตํ์๋ค. ๊ฒฝ์ฐ์ ๋ฐ๋ผ LIMA๋ ์์ ์ํ์ ์์ ํ ๊ฑฐ๋ถํ์ง๋ง ์ ์์ ์ธ ์๋๊ฐ ๋ดํฌ๋ ๊ฒฝ์ฐ LIMA๋ ๊ทธ๋ฆผ 3์์ ๋ณผ ์ ์๋ ๊ฒ์ฒ๋ผ ์์ ํ์ง ์์ ์๋ต์ ์ ๊ณตํ ๊ฐ๋ฅ์ฑ์ด ๋ ํฌ๋ค.
5. Why is Less More? Ablations
๋ ผ๋ฌธ์์๋ training data์ ๋ค์์ฑ, ํ๋ฆฌํฐ, ์์ ํจ๊ณผ๋ฅผ ablation์ ํตํด ์กฐ์ฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ alignment์ ๋ชฉ์ ์ ๋ํด input ๋ค์์ฑ๊ณผ output ํ๋ฆฌํฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ์๋นํ ๊ธ์ ์ ์ธ ํจ๊ณผ๋ฅผ ๋ถ๋ฌ์จ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์๋ค. ๋ฐ๋ฉด์ ์๋ง ๋๋ฆฌ๋ ๊ฒ์ ๋ณ ํจ๊ณผ๊ฐ ์๋ค.
Diversity. prompt ๋ค์์ฑ์ ํจ๊ณผ๋ฅผ ํ ์คํธํ๊ธฐ ์ํด quality-filtered Stack Exchange ๋ฐ์ดํฐ์ wikiHow ๋ฐ์ดํฐ์์์ ํ์ต์ ํจ๊ณผ๋ฅผ ๋น๊ตํ์๋ค. ๊ทธ๋ฆผ 4๋ ๋์ฑ ๋ค์ํ Stack Exchange ๋ฐ์ดํฐ๊ฐ ์๋นํ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
Quality. ์๋ต ํ๋ฆฌํฐ์ ํจ๊ณผ๋ฅผ ํ ์คํธํ๊ธฐ ์ํด ์ด๋ ํ ํํฐ๋ง๋ ์๋ Stack Exchange๋ก๋ถํฐ 2,000๊ฐ์ example์ ์ํ๋งํ๊ณ ์ด ๋ฐ์ดํฐ์ ๊ณผ ํํฐ๋ง๋ ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋น๊ตํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๊ทธ๋ฆผ 4์์๋ 0.5% ์ ๋์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์คฌ๋ค.
Qunatity. example์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ๋จธ์ ๋ฌ๋ ์ธํ ์์ ์ ์๋ ค์ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ฅผ ํ ์คํธํ๊ธฐ ์ํด, Stack Exchange๋ก๋ถํฐ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ training set๋ฅผ ์ํ๋งํ์๋ค. ๊ทธ๋ฆผ 5๋ training set๋ฅผ ๋๋ธ๋ง ํ๋ฉด์ ๋๋ฆฌ๋ ๊ฒ์ด ์๋ต์ ํ๋ฆฌํฐ๋ฅผ ํฅ์์ํค์ง๋ ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด ๊ฒฐ๊ณผ๋ alignment์ scaling law๋ ์ ํ๋์๋ง ์ํฅ์ ๋ฐ๋ ๊ฒ์ด ์๋๋ผ prompt์ ๋ค์์ฑ์๋ ์ํฅ์ ๋ฐ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. (high-quality ์๋ต์ ์ ์งํ๋ ํ)
6. Multi-Turn Dialogue
์ค์ง 1,000๊ฐ์ single-turn ์ํธ์์ฉ์์ fine-tune ๋ ๋ชจ๋ธ์ด multi-turn dialogue์ ์ฌ์ฉ๋ ์ ์์๊น? ๋ ผ๋ฌธ์์๋ LIMA๋ฅผ 10๊ฐ์ ๋ผ์ด๋ธ ๋ํ์์ ํ ์คํธํ์๋ค. ์ด๋ ๊ฐ ์๋ต์ Fail, Pass, Excellent๋ก ๋ผ๋ฒจ๋งํ์๋ค. LIMA์ ์๋ต์ ๋ํ์ ์ด์ ๋จ๊ณ์์ ์ ๋ณด๋ฅผ ์ฐธ์กฐํ๋ zero-shot ์ฑ๋ด์ ๋ํด ๋๋ผ์ธ ์ ๋๋ก ์ผ๊ด์ฑ์ ๊ฐ์ง ๋ชจ๋ธ์ Out-Of-Distribution ์์๋ ์๋ํ๋ ๊ฒ์ด ๋ถ๋ช ํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก 10๊ฐ์ ๋ํ ์ค 6๊ฐ์์ LIMA๋ 3๊ฐ์ ์ํธ์์ฉ ๋ด์์ prompt๋ฅผ ๋ฐ๋ฅด์ง ์์๋ค.
๋ํ ๋ฅ๋ ฅ ๊ฐ์ ์ ์ํด 30๊ฐ์ multi-turn dialogue chain์ ๋ชจ์๋ค. ์ด๋ ๊ฒ ํด์ ์ด 1,030๊ฐ์ example์์ fine-tune๋ ์๋ก์ด ๋ฒ์ ์ LIMA๋ zero-shot ๋ชจ๋ธ์์ ๋๊ฐ์ด ์ฌ์ฉ๋ prompt์ ๊ธฐ๋ฐํด์ 10๊ฐ์ ๋ผ์ด๋ธ ๋ํ๋ฅผ ์งํํ์๋ค. ๊ทธ๋ฆผ 7์ ์ด๋ฌํ dialogue์ ๋ํ ์์ธ๋ฅผ ๋ณด์ฌ์ค๋ค.
๊ทธ๋ฆผ 6์ ์๋ต ํ๋ฆฌํฐ์ ๋ถํฌ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์์ฑ ํ๋ฆฌํฐ๋ฅผ ์๋นํ ๊ฐ์ ์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ failure rate๋ zero-shot์ ๊ฒฝ์ฐ์๋ 42 ํด ๋น 15๋ฒ์ ์ค๋ฅ๊ฐ ๋ฐ์ํ์์ง๋ง, fine-tuned์ ๊ฒฝ์ฐ์๋ 46 ํด ๋น 1๋ฒ ์ ๋์ ์ค๋ฅ๊ฐ ๋ฐ์ํ์๋ค. fine-tuned ๋ชจ๋ธ์ 10๊ฐ ์ค 7๊ฐ์ ๋ํ์์ ์๋นํ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๊ณ , 3๊ฐ์์๋ zero-shot๊ณผ ํ์ด๋ฅผ ์ด๋ค๋ค. ๋จ 30๊ฐ์ example์์ ์ด๋ฌํ ๋ฅ๋ ฅ์ ๋์ฝ๊ณผ zero-shot ๋ชจ๋ธ์ด ๋ํํ ์ ์๋ค๋ ์ฌ์ค์ ์ด๋ฐ ๋ฅ๋ ฅ์ด pre-training ์ค์ ํ์ต๋๊ณ limited supervision์ ํตํด ํธ์ถ๋ ์ ์๋ค๋ ๊ฐ์ค์ ๊ฐํํ๋ค.
7. Discussion
๋ ผ๋ฌธ์์๋ 1,000๊ฐ์ ์ ์คํ๊ฒ ์์ ๋ example์์ ๊ฐ๋ ฅํ PLM์ fine-tune ํ๋ฉด ๊ด๋ฒ์ํ prompt์์ ๋์ ๋๊ณ , ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง ์ด๋ฌํ example์ ์์ฑํ๋ ๋ฐ๋ ์๋นํ mental effort๊ฐ ํ์ํด์ scale up์ด ํ๋ค๋ค. ๊ทธ๋ฆฌ๊ณ LIMA๋ product-grade ๋ชจ๋ธ๋งํผ robust ํ์ง ์๋ค. ๋ฐ๋ฉด์ LIMA๋ ์ผ๋ฐ์ ์ผ๋ก ์ข์ ์๋ต์ ๋ณด์ฌ์ฃผ๋๋ฐ, ๋์ฝ๋ฉ ๋๋ ๊ณต๊ฒฉ์ prompt ์ค์ unlucky sample๋ ์ฝํ ์๋ต์ ์ด๋ ์ ์๋ค. ์ฆ, ์ด ๋ ผ๋ฌธ์์ ์ ์๋ ์ฆ๊ฑฐ๋ ๊ฐ๋จํ ์ ๊ทผ ๋ฐฉ์์ผ๋ก alignment์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.11206