The overview of this paper
LM์ instruction์ผ๋ก ํํ๋์ด ์๋ ๋ฐ์ดํฐ์ ๋ชจ์์์ fine-tuneํ๋ ๊ฒ์ ํฅ์๋ ์ฑ๋ฅ๊ณผ unseen task์ ๋ํ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ๋ ผ๋ฌธ์์๋ instruction fine-tuning์ ํน๋ณํ ๊ด์ ์์ ๋ค์ฌ๋ค ๋ณด์๋ค.
- task์ ์ ๋๋ฆฌ๊ธฐ
- ๋ชจ๋ธ ์ฌ์ด์ฆ ๋๋ฆฌ๊ธฐ
- CoT ๋ฐ์ดํฐ์์ fine-tune
์์ ์ธก๋ฉด์ ์ฌ์ฉํ instruction fine-tuning์ ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํค๋ ๋ชจ์ต์ ๋ณด์ฌ์ ๋ค. ์ ๋ฐ์ ์ผ๋ก instruction fine-tuning์ ์ฑ๋ฅ๊ณผ pre-trained LM์ ๊ฐ์ฉ์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.
Table of Contents
1. Introduction
2. Flan Finetuning
3. Scaling to 540B parameters and 1.8K tasks
4. Finetuning with chain-of-thought annotations
5. Putting it all together
6. Usability evaluation of open-ended generation
7. Discussion
1. Introduction
์ด ๋ ผ๋ฌธ์์๋ instruction fine-tuning์ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ ์์ผฐ๋ค.
- instruction fine-tuning์์์ scaling ํจ๊ณผ๋ฅผ ์ฐ๊ตฌ → task์ ์ & ๋ชจ๋ธ์ ์ฌ์ด์ฆ์ ํจ๊ป ์ scale ๋์์.
- ์ถ๋ก task๋ฅผ ์ํํ๊ธฐ ์ดํ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์์ fine-tuning์ ํจ๊ณผ๋ฅผ ์ฐ๊ตฌ → 9๊ฐ์ CoT ๋ฐ์ดํฐ์ ์ ์ถ๊ฐ ํ์ต ๋ง์ผ๋ก๋ ๋ชจ๋ ํ๊ฐ์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
์ด๋ฌํ ๋ฐ๊ฒฌ์ ๊ธฐ๋ฐํ์ฌ 540B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ์ฌ์ฉํด, fine-tuning task์ ์๋ฅผ 1.8K๋ก ๋๋ฆฌ๊ณ , CoT ๋ฐ์ดํฐ๋ฅผ ํฌํจํจ์ผ๋ก์จ Flan-PaLM์ ํ์ต์์ผฐ๋ค. Flan-PaLM์ ๊ธฐ์กด์ PaLM์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ๋ช๋ช task์์๋ SoTA๋ฅผ ๋ฌ์ฑํ๊ธฐ๋ ํ๋ค. human rater๋ค์ ํ๊ฐ์ ์ํ๋ฉด, Flan-PaLM์ ์ด๋ ค์ด open-ended ์์ฑ ์ง๋ฌธ์์ PaLM์ ๋ฅ๊ฐํ๊ณ , ๊ฐ์ ๋ ๊ฐ์ฉ์ฑ์ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ, ๋ ผ๋ฌธ์์๋ instruction fine-tuning์ด ์ฌ๋ฌ AI ํ๊ฐ ๋ฒค์น๋งํฌ์ ๋ํด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
๋ํ ๋ ผ๋ฌธ์์๋ Flan-T5 ๋ชจ๋ธ(80M to 11B)์ instruction fine-tune ํ์๋ค. ์ด๋ฌํ checkpoint๋ zero-shot, few-shot, CoT ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์๊ณ , ์ด์ ์ ๊ณต๊ณต checkpoint์ธ T5๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ ๋ฐ์ ์ผ๋ก ๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ ์ด๋ป๊ฒ instruction fine-tuning์ด ๋ค์ํ ๋ชจ๋ธ, prompt setup, ํ๊ฐ task์ ๋ํด ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋์ง ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
2. Flan Finetuning
๋ค์ํ instruction ํ ํ๋ฆฟ์ ์ฌ์ฉํ ๋ฐ์ดํฐ ๋ชจ์์์ instruction fine-tune์ ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด fine-tuning ํ๋ก์์ ๋ฅผ 'Flan'์ด๋ผ ํ๊ณ , ์ด fine-tuning ํ๋ก์์ ๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ์ ์ด๋ฆ ์์๋ 'Flan'์ ์ถ๊ฐํ์๋ค.
2-1. Finetuning Data
Task mixtures. ๋ ผ๋ฌธ์์๋ ์ด์ ์ฐ๊ตฌ๋ค์์ ์ฌ์ฉ๋ 4๊ฐ์ mixture(Muffin, T0-SF, NIV2, CoT)๋ฅผ ๋ฌถ์ด์ 1,836๊ฐ์ finetuning task๋ก scale up ํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ด ๋ค์์ ๊ทธ๋ฆผ 2์ ์์ฝ๋์ด ์๋ค.
Chain-of-thought finetuning mixture. ๋ค ๋ฒ์งธ ๋ฐ์ดํฐ mixture(reasoning)์ CoT annotation์์ fine-tune ํ๋ ๊ฒ์ด unseen ์ถ๋ก task์์ ์ฑ๋ฅ์ ํฅ์์ํค๋์ง ๊ด์ฐฐํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ CoT๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ human rater๊ฐ ์ง์ training corpus์ ๋ํ CoT annotation์ ์์ฑํ 9๊ฐ์ ๋ฐ์ดํฐ์ ์ ์์ฑํ์๋ค. ์ด 9๊ฐ์ ๋ฐ์ดํฐ์ ์ task ๋น 10๊ฐ์ instruction์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
Templates and formatting. Muffin, T0-SF, NIV2์ ๋ํด์ ๋ ผ๋ฌธ์์๋ instruction ํ์์ ํ ํ๋ฆฟ์ ์ฌ์ฉํ์๋ค. CoT์ ๋ํด์๋ ๊ฐ ๋ฐ์ดํฐ์ ๋น 10๊ฐ์ instruction์ ์ง์ ์์ฑํ์๋ค. few-shot ํ ํ๋ฆฟ์ ๋ง๋ค๊ธฐ ์ํด์, ๋ ผ๋ฌธ์์๋ ๋ค์ํ ๊ตฌ๋ถ์(ex. Q: / A:)์ ์์ฑํ๊ณ example ๋ ๋ฒจ์ ๋๋คํ๊ฒ ์ ์ฉํ์๋ค. CoT๊ฐ ์๊ฑฐ๋ ์๋ ๊ฒฝ์ฐ์ ์์ ๊ฐ ์๋ ๊ฒฝ์ฐ์ ์๋ ๊ฒฝ์ฐ ๋ชจ๋์ ๋ํ formatting์ ์๊ฐ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๋ค.
2-2. Finetuning procedure
๋ ผ๋ฌธ์์๋ instruction fine-tuning์ ์ฌ๋ฌ ๋ชจ๋ธ๋ค์ ๋ํด ์ ์ฉํ์๋ค. ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ํด ๋๊ฐ์ training ํ๋ก์์ ๋ฅผ ์ ์ฉํ์๋ค. ๋ ผ๋ฌธ์์ ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉํ method๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
- packing: ๋ค์ํ training ์์๋ฅผ ํ๋์ ์ํ์ค๋ก ๋ฌถ์
- End-of-Sequence token: ํ๊น์ผ๋ก๋ถํฐ ์ ๋ ฅ์ ๋ถ๋ฆฌ
- masking: ๋ค๋ฅธ packed ์์๋ฅผ ์ฐธ์กฐํ์ง ๋ชปํ๋๋ก ์ฌ์ฉ
๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ํด ๋ ผ๋ฌธ์์๋ ๋ชจ๋ ํ๊ฐ์ ๋ํด ๊ฐ์ฅ ์ต์ ์ checkpoint๋ฅผ ์ฌ์ฉํ์๋ค. ํนํ, fine-tuning์ ์ฌ์ฉ๋๋ ๊ณ์ฐ๋์ trainingํ๋๋ฐ ์ฌ์ฉ๋๋ ๊ณ์ฐ๋์ ๊ทน์์ ๋ถ๊ณผํ๋ค. ์ด๊ฒ์ด ํ 2์ ๋ํ๋ ์๋ค.
2-3. Evaluation protocol
Evaluation benchmarks. ๋ ผ๋ฌธ์์๋ fine-tuning ๋ฐ์ดํฐ์ ํฌํจ๋์ด ์์ง ์์ held-out task์์์ ์ฑ๋ฅ์ ์ง์คํ์๋ค. ๊ทธ๋ฆฌ๊ณ ํนํ Flan-PaLM์ ์ธ๊ณ์ ์ธ์ ์ง์๊ณผ ์ถ๋ก task์ ๋ํ ์ ๋ฐ์ ์ธ ๋ฅ๋ ฅ์ ํฅ๋ฏธ๋ฅผ ๋๊ผ๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ fine-tuning mixture์ ํฌํจ๋์ด ์๋ ๋ฐ์ดํฐ๊ฐ ์๋ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ํ๊ฐ๋ฅผ ํ์๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ฒค์น๋งํฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- MMLU: ์ํ, ์ญ์ฌ, ๋ฒ, ์ํ๊ณผ ๊ฐ์ 57๊ฐ task์ ์ํ ์ง๋ฌธ์ ํฌํจ
- BBH: PaLM์ด ํ๊ท human rater๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ BIG-Bench์ 23๊ฐ์ ์ด๋ ค์ด task ํฌํจ
- TyDiQA: 8๊ฐ์ ๋ค์ํ ์ธ์ด์ ๋ํ question-answering ๋ฒค์น๋งํฌ
- MGSM: ์ํ ๋จ์ด ๋ฌธ์ ์ multilingual ๋ฒค์น๋งํฌ
Evaluation methods and metrics. MMLU์ BBH์ ๋ํด, ๋ ผ๋ฌธ์์๋ direct prompting์ ํตํ answer๋ฅผ ์ง์ ์ ์ผ๋ก ์์ธกํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ณ , ๋ฟ๋ง ์๋๋ผ CoT prompting์ ํตํ ํ๊ฐ๋ ์งํํ์๋ค. CoT prompting์์ ๋ชจ๋ธ์ ์ต์ข ๋๋ต์ ๋ด๋๊ธฐ ์ ์ ์ถ๋ก ์ฒด์ธ์ ์ ๊ณตํด์ผ๋ง ํ๋ค. ๋ชจ๋ ๋ฒค์น๋งํฌ์ ๋ํด์ ๋ ผ๋ฌธ์์๋ ์ด์ ์ฐ๊ตฌ๋ฅผ ๋ฐ๋ผ์ ์ฃผ์ด์ง few-shot exemplar๋ฅผ ์ฌ์ฉํ์๋ค: five-shot MMLU, three-shot BBH, one-shot TyDiQA, 8-shot MGSM. ์ฃผ์ด์ง ๋ชจ๋ธ์ ๋ํด ํ๋์ ์ ๊ทํ๋ ํ๊ท metric์ ๊ธฐ๋กํ์๋ค.
3. Scaling to 540B parameters and 1.8K tasks
๋ ผ๋ฌธ์์๋ ์ฒ์์ ๋ชจ๋ธ์ ์ฌ์ด์ฆ & fine-tuning task์ ์ ์์ ์ค๋ ํจ๊ณผ๋ฅผ ํ์ ํ์๋ค. ๊ทธ๋ฌ๊ธฐ ์ํด PaLM ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ๋ฌ๋ฆฌํจ์ผ๋ก์จ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ scale ํ๊ณ , task์ ์๋ฅผ scaleํ๊ธฐ ์ํด ์ ์ ์์ task๋ฅผ ๊ฐ์ง๋ mixture๋ถํฐ ๋ง์ ์์ task๋ฅผ ๊ฐ์ง๋ mixture ์์ผ๋ก ์์ฐจ์ ์ผ๋ก task mixture์ ์ถ๊ฐํ์๋ค: CoT, Muffin, T0-SF, NIV2.
๊ทธ๋ฆผ 4๋ held-out ๋ฒค์น๋งํฌ์ ์ ๊ทํ๋ ํ๊ท ์์ ์ด ๋ ๋ณ์์ scaling์ ๊ณต๋ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ฐ๊ฐ์ ๋ฒค์น๋งํฌ์์์ ๊ฒฐ๊ณผ๋ ํ 3์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- 3๊ฐ ์ฌ์ด์ฆ์ ๋ชจ๋ธ ๋ชจ๋์์ multi-task instruction fine-tuning์ no fine-tuning๊ณผ ๋น๊ตํ์ฌ ํฐ ๋ง์ง์ผ๋ก ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค.
- fine-tuning task์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค. ๋น๋ก ๋๋ถ๋ถ์ ์ฑ๋ฅ ํฅ์์ ์ต๋ 282๊ฐ์ task๋ฅผ ์ฌ์ฉํ ๋ ๊น์ง๋ง ๋ฐ์ํ์ง๋ง ๋ง์ด๋ค. ์ด๋ ๋ชจ๋ธ ํ์ต์ผ๋ก๋ถํฐ ์ค๋ multi-task instruction fine-tuning์ ๋๋ถ๋ถ์ ์ฑ๋ฅ ํฅ์์ pre-training์ผ๋ก๋ถํฐ ์ด๋ฏธ ์๊ฒ ๋ ์ง์์ ๋ ์ ํํํ๊ธฐ ์ํด์์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ 282๊ฐ ๋ณด๋ค ๋ ๋ง์ ์์ task๋ ๋ณ๋ก ๋์์ด ๋์ง ์๋๋ค. ์ด ์ค๋ช ์ด ๋ง์ด ๋๋ ์ด์ ๋ pre-training ๋ฐ์ดํฐ๋ 780B ๊ฐ์ ํ ํฐ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ ๋ฐ๋ฉด์, instruction fine-tuning์ ์ค์ง 1.4B๊ฐ์ ํ ํฐ๋ง์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค.
- ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ finetuned & non-finetuned ๋ชจ๋ธ ๋ ๋ค ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํจ๋ค. ๊ทธ๋์ instruction fine-tuning์ด small model ๋๋ large model ์ค์ ๋ฌด์์ ๋ ๊ฐ์ ์ํค๋์ง ํ๋จํ๋ ๊ฒ์ ๋ณต์กํ๋ค. ์๋ฅผ ๋ค์ด 540B ๋ชจ๋ธ์ ๋นํด 8B ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ๋ ํฌ์ง๋ง, error rate ๊ฐ์๋ 540B ๋ชจ๋ธ์ด ๋ ํฌ๋ค.
์ด๋ฌํ scaling curve๋ฅผ ๊ทธ๋ ค๋ณด๋ฉด ์ด๋ป๊ฒ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ๊ณ task์ ์๋ฅผ ๋๋ ค์ผ ์ฑ๋ฅ์ ๊ฐ์ ์ํฌ ์ ์๋์ง ํ์ ์ด ๊ฐ๋ฅํ๋ค. ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ๋ค๋ฅธ ํฌ๊ธฐ๋ก ํ์ฅํ๋ฉด ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ ๊ฒ์ด๋ค. fine-tuning task์ ์๋ฅผ ์กฐ์ ํ๋ฉด ์ ์ง์ ์ด๊ธด ํ์ง๋ง, ์ฑ๋ฅ ๋ํ ํฅ์๋ ๊ฒ์ด๋ค. ์ ๋ฐ์ ์ผ๋ก, scaling curve๋ ํฅํ ์ฐ๊ตฌ์์๋ instruction finetuning์ scaling์ ๊ณ์ํด์ผ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
4. Finetuning with chain-of-thought annotations
Flan fine-tuning์ ๋ชฉํ๋ ์ ํต์ ์ธ NLP task์ multi-step ์ถ๋ก ๋ฅ๋ ฅ์ ํฌํจํ๋ ๋ค์ํ ํ๊ฐ์ ๋ํด ๊ฐ์ ๋ checkpoint๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์ด ์น์ ์์๋ instruction fine-tuning mixture์์ CoT๋ฅผ ํฌํจํ๋ ๊ฒ์ ํจ๊ณผ๋ฅผ ์ฐ๊ตฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- Flan-PaLM์ ๊ฐ์ ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์ด์ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ์๋ค.
- ๊ทธ ๋ค์์ CoT fine-tuning ๋ฐ์ดํฐ์ ablation์ ์งํํ์๊ณ , CoT๋ฅผ ํฌํจํ์ง ์๋ instruction fine-tuning์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฝํ์์ผฐ๊ณ , 9๊ฐ์ CoT ๋ฐ์ดํฐ์ ์ ํฌํจํ๋ ๊ฒ๋ง์ผ๋ก ๋ชจ๋ ํ๊ฐ์์ ๊ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- CoT fine-tuning์ ์ด๋ ค์ด BIG-Bench task์์ 'let's think step by step'์ ํตํด zero-shot ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
4-1. Finetuning on chain-of-thought improves reasoning on held-out tasks
CoT annotation์ด ์๋ 9๊ฐ์ ๋ฐ์ดํฐ์ ์ fine-tuning mixture์ ํฌํจ์ํค๋ ๊ฒ๋ง์ผ๋ก๋ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์๋๋ค. ํ 4๋ Flan-PaLM์ CoT prompting ๋ฅ๋ ฅ์ด PaLM์ ๋ฅ๊ฐํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
ํ 4๋ ๋ํ ์ด๋ป๊ฒ CoT prompting์ด self-consistency์ ๋ฌถ์ฌ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ SoTA๋ฅผ ๋ฌ์ฑํ ์ ์์๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค. ์๋ฅผ ๋ค์ด MMLU ๋ฒค์น๋งํฌ์์ Flan-PaLM์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ํฐ ๋ง์ง์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. MGSM ๋ฒค์น๋งํฌ์์ Flan-PaLM with CoT+SC๋ SoTA๋ฅผ ์๋นํ ๊ฐ์ ์์ผฐ์ ๋ฟ๋ง ์๋๋ผ ์ ๊ฒ ๋ํ๋ฌ๋ ์ธ์ด์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด์ ๋น๊ตํด์ PaLM with CoT+SC๋ ๋ง์ ๋ฆฌ์์ค๊ฐ ์๋ ์ธ์ด์ ๋ํด์๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก Flan-PaLM with CoT+SC๋ GSM8K์์ ์๋ก์ด SoTA๋ฅผ ๋ฌ์ฑํ์๋ค. ํ์ง๋ง Flan-PaLM๋ ์ ๋ฌธํ๋ ๋ชจ๋ธ๊ณผ ๋น๊ตํด์๋ SoTA๋ฅผ ๋ฌ์ฑํ์ง ๋ชปํ๋ค.
4-2. Some chain-of-thought data is needed to maintain reasoning ability
instruction fine-tuning์ 9๊ฐ์ CoT ๋ฐ์ดํฐ์ ์ ์ถ๊ฐํ๋ ๊ฒ์ ํจ๊ณผ์ ๋ํด ablation study๋ฅผ ์งํํ์๋ค. ๋ ผ๋ฌธ์์๋ held-out CoT ๋ฒค์น๋งํฌ(MMLU, BBH, MGSM)๊ณผ held-out non-CoT ๋ฒค์น๋งํฌ(MMLU, BBH, TyDiQA)๋ฅผ ๊ณ์ธตํํ๊ณ , CoT์ non-CoT์ ๋ํ ์ ๊ทํ๋ ํ๊ท ์ ๊ณ์ฐํ์๋ค. ๊ทธ๋ฆผ 5์ ์ผ์ชฝ์์ ๋ณด์ด๋ฏ์ด held-out CoT ๋ฒค์น๋งํฌ์์์ ์ฑ๋ฅ์ non-CoT+CoT fine-tuning์ด just CoT fine-tuning๋ณด๋ค ๊ฐ๋ ฅํ๋ค. ๊ทธ๋ฆผ 5์ ์ค๋ฅธ์ชฝ์ CoT+CoT fine-tuning์ non-CoT task์์์ ์ฑ๋ฅ์ ์ฝํ์ํค์ง ์๋๋ค๋ ๊ฒ์ ์ ์ฆํ์๋ค.
๊ทธ๋ฆผ 5์ ์ผ์ชฝ์ ์ค์ํ ํฌ์ธํธ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์งํ๊ธฐ ์ํด ๋ช๋ช CoT example์์ fine-tuneํ๋ ๊ฒ์ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์๋ํ๋ฉด ์ค์ง non-CoT ์์์ fine-tuning์ ์ฑ๋ฅ์ ํ๋ฝ์ํค๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ๊ทธ๋ฆผ 5์ ์ด๋ก์ ์ ์ด ๋ณด์ฌ์ค๋ค. ์ด ๋ชจ๋ ๊ฑธ ์ข ํฉํด์ ablation์ ๊ฒฐ๊ณผ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํด์ํ ์ ์๋ค.
- instruction fine-tuning์ unseen task๊ฐ fine-tuning task ์ฒ๋ผ ๋๊ฐ์ prompting ํจ๋ฌ๋ค์์ ์์ ๋ unseen task๋ฅผ ํฅ์์ํจ๋ค. ๊ทธ๋์ ๋ชจ๋ ํ๊ฐ์์ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด์๋ non-CoT & CoT ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค.
4-3. Unlocking zero-shot reasoning
exemplar๊ฐ ์๊ณ ์๋ CoT ๋ฐ์ดํฐ์์์ instruction fine-tuning์ ๋ง์ง๋ง ์ด์ ์ zero-shot ์ธํ ์์ CoT ์ถ๋ก ์ด ์ํ ๊ฐ๋ฅํด์ง๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ zero-shot ์ธํ ์ ์ค์ํ๋ฐ ์๋ํ๋ฉด CoT์ ๋ํ few-shot exemplar ์์ด ์ด๋ค ๋ง์ ์ถ๋ก ์คํฌ์ ์์ฑํ๊ธฐ ์ํ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด์์ด๋ค.
๊ทธ๋ฆผ 6์ 23๊ฐ์ unseen BIG-Bench task์ BBH ๋ฒค์น๋งํฌ์ ๋ํด์ ๋ณด์ฌ์ค๋ค. ์ฌ๊ธฐ์ Flan-PaLM์ "let's think step by step"์ด๋ผ๋ ๊ตฌ๋ฌธ์ CoT ์ถ๋ก ์ ํ์ฉํจ์ผ๋ก์จ BBH ๋ฒค์น๋งํฌ์์ ๊ฐ์ ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ด์ ๋น๊ตํ์ฌ fine-tuning์ ํ์ง ์์ PaLM์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ํ์ํ CoT๋ฅผ ์์ฑํ์ง ์๋๋ค. ๊ทธ๋ฆผ 7์ PaLM๊ณผ Flan-PaLM์ ๋ํ zero-shot CoT์ 3๊ฐ์ง ์์๊ฐ ๋ํ๋์๋ค.
5. Putting it all together
task์ ์์ CoT ๋ฐ์ดํฐ๋ฅผ ํฌํจํจ์ผ๋ก์จ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ์ฌ๋ฌ ์ฌ์ด์ฆ์ ๋ชจ๋ธ, architecture, training objective๋ฅผ ์ ์ฉํจ์ผ๋ก์จ instruction fine-tuning์ ์ผ๋ฐ์ฑ์ ๋ณด์ฌ์คฌ๋ค. ์ฐ๊ตฌ์ ์ฌ์ฉ๋ ๋ชจ๋ธ๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
- encoder-decoder T5: PaLM ๋ชจ๋ธ์ family model. ์ด ๋ชจ๋ธ์ PaLM์ decoder-only architecture๊ณผ๋ ๋์กฐ์ .
- cont-PaLM: PaLM 62B ๋ชจ๋ธ์ ์ฐ์ฅ์ผ๋ก PaLM-62B๋ฅผ 500B๊ฐ ๋๋ ํ ํฐ์์ ํ์ต์์ผฐ์.
- U-PaLM: PaLM-540B๋ก ์ด๊ธฐํ๋๊ณ UL2 objective๋ก pre-train ๋์์.
์ด๋ฌํ ํ๊ฐ ๊ฒฐ๊ณผ๋ ํ 5์ ๋ํ๋์๋ค. instruction fine-tuning์ ๋ชจ๋ ๋ชจ๋ธ ์ ํ์ ๋ํด ํฐ ๋ง์ง์ผ๋ก ์ ๊ทํ๋ ํ๊ท ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ํ๊ฐ ๋ฒค์น๋งํฌ์ ์ด๋ ค์๊ณผ T5๊ฐ multi-lingual ์ด๋ผ๋ ์ฌ์ค์ด ์ฃผ์ด์ง๋ฉด์ T5 ๋ชจ๋ธ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ non-fineteuned ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ instruction fine-tuning์ผ๋ก๋ถํฐ ๊ฐ์ฅ ๋ง์ ์ด๋์ ์ป์๋ค. ๊ฒฐ๊ณผ์์ ํ์ธํ ์ ์์๋ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ U-PaLM ๋ชจ๋ธ์์ ์ฌ์ฉ๋ instruction fine-tuning๊ณผ UL2๋ฅผ ๋ฌถ์ด์ ์งํํ pre-training์ด๋ค. ์ด ๊ฒฐ๊ณผ๋ instruction fine-tuning๊ณผ UL2๋ก pre-training์ ๊ณ์ํ๋ ๊ฒ์ด ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ์ง ์๊ณ LM์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ ๊ณ์ฐ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
6. Usability evaluation of open-ended generation
๊ธด ํ์์ ๋๋ต์ ํ๊ฐํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๊ธฐ์กด์ NLP ๋ฒค์น๋งํฌ์ ์๋ metric์ ์ด๋ฌํ ์์ ํ์ ์๋ต์ ๋ํ ์ฌ๋์ ์ ํธ๋๋ฅผ ์ธก์ ํ๊ธฐ์ ๋ถ์ถฉ๋ถํ๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ์ด๋ ค์ด ์ ๋ ฅ์ ๋ํ open-ended ์๋ต์ ์ ๊ณตํ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๋ํ instruction fine-tuning์ ํจ๊ณผ๋ฅผ ์กฐ์ฌํ๋ ์๋์ ์ธ ํ๊ฐ๋ฅผ ์ํํ์๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ 190๊ฐ ์์์ ํ๊ฐ ์ธํธ๋ฅผ ์์ฑํ์๋ค. ์ด ํ๊ฐ ์ธํธ์๋ ๊ฐ๊ฐ 20๊ฐ์ ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋ 5๊ฐ์ ์ด๋ ค์ด ๋ฒ์ฃผ์ ๊ฑธ์ณ ๋ชจ๋ธ์ zero-shot ๋ฐฉ์์ผ๋ก ์ ๊ธฐ๋ ์ง๋ฌธ์ด ํฌํจ๋๋ค: ์ฐฝ์์ฑ, ๋ฌธ๋งฅ์ ๋ํ ์ถ๋ก , ๋ณต์กํ ์ถ๋ก , ๊ณํ, ์ค๋ช . ์ด๋ฌํ ์ ์ค 60๊ฐ์ ๋ํด, ๋ ผ๋ฌธ์์๋ CoT trigger ๊ตฌ๋ฌธ(ex. "let's think step-by-step")์ ์ฌ์ฉํ ๋ณํ์ ์์ฑํ์๋ค. ์์ 160๊ฐ์ zero-shot ์ ๋ ฅ ์ธ์๋ instruction fine-tuning์ด ์๋ ๊ฐ๋ ฅํ LM์ด ์ ์ํํ๋ ๊ฒ์ผ๋ก ํ์๋ few-shot ๊ธฐ๋ฅ์ ํ ์คํธํ๋ 30๊ฐ์ ์ ๋ ฅ์ด ํฌํจ๋์ด ์๋ค.
์ด ํ๊ฐ์์๋ PaLM 540B์ Flan-PaLM 540B ๋ชจ๋ธ์ ๋น๊ตํ์๋ค. ๋ ๋ชจ๋ธ์ด ์์ฑํด๋ธ ์๋ต์์ ์ค๊ฐ๊ฐ ๋ฏธ๋ง์ ๊ฐ์ ์ ๊ฑฐํ๊ณ ๋จ๋ ๊ฒ ์ค์์ best score๋ฅผ ๊ฐ๋ ์๋ต์ ์ ํํ์๋ค. ์ค๊ฐ๊ฐ ์ดํ์ ์๋ต์ ์ ๊ฑฐํจ์ผ๋ก์จ ๋ชฉ์ ๊ณผ๋ ๋ค๋ฅธ ์๋ต๋ค์ ์ ๊ฑฐํ ์ ์์๋ค. ๊ทธ ๋ค์์ human rater๋ค์๊ฒ PaLM๊ณผ Flan-PaLM์ ์ถ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ๊ธฐํธ์ ๊ธฐ๋ฐํ์ฌ ์๋ต์ ์ ํํ๋๋ก ํ์๋ค.
์ฌ๋๋ค์ ํ๊ฐ ๊ฒฐ๊ณผ๋ ๋ค์์ ๊ทธ๋ฆผ 8์ ๋ํ๋ ์๋ค. 190๊ฐ์ ์์ ์ค์์ Flan-PaLM์ 79%์ ๊ฒฝ์ฐ์ ๋์ฑ ์ ํธ๋์๋ค. ๋ชจ๋ zero-shot ์ธํ ์ ๋ํด Flan-PaLM์ ํฐ ๋ง์ง์ผ๋ก ์ ํธ๋์๊ณ , CoT trigger ๊ตฌ๋ฌธ์ ์ฌ์ฉํ๋ ์ ๋ ฅ์ ๋ํ rater๋ค์ Flan-PaLM์ ๋ํ ์ ํธ๋ 10% ์ ๋ ๋ ํฅ์๋์๋ค. few-shot์ ๋ํด์๋ PaLM๊ณผ ๋น๊ตํ์ฌ ํด๋ณด๋ ์์๋ค.
PaLM์ ๋ํ ๋ชจ๋ธ ์์ฑ์ ์กฐ์ฌํ ๊ฒฐ๊ณผ NLP ๋ฒค์น๋งํฌ์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ NSP objective์ ๋ํ pre-training๋ง์ผ๋ก๋ ์ข์ zero-shot ์ฌ์ฉ์ฑ์ ์ถฉ๋ถํ์ง ์์ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ์๋ฅผ ๋ค์ด PaLM์ด ๋ง๋ค์ด๋ธ ์๋์น ์๋ ํน์ฑ์ ๋ํ ๊ฒ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ง๋ฌธ์ ๋ตํ๊ธฐ ๋ณด๋ค๋ ์ฐ๊ด๋ ํ ์คํธ๋ฅผ ๊ณ์ ์์ฑํด๋ธ๋ค.
- ์ ๋ ฅ ์ง๋ฌธ์ ์ด์ง์ฉ ์์ ํด์ ๋ฐ๋ณตํ๋ค.
- ์ธ์ ํ ์คํธ ์์ฑ์ ๋ฉ์ถฐ์ผํ๋ ์ง๋ฅผ ๋ชจ๋ฅธ๋ค.
์ด ๋ชจ๋ ๊ฒ์ End-of-Sequence(EoS) token์ ์ฌ์ฉํ์ง ์๋ ๊ฒ์ ์ ์ ๋ฌผ์ด๋ค. ์ด๋ ๊ฒ ์๊ฒจ๋ ์ค๋ฅ์ ๋ช ๊ฐ์ง ์์๊ฐ ๊ทธ๋ฆผ 9์ ๋ํ๋ ์๋ค.
7. Discussion
์ด ๋ ผ๋ฌธ์์๋ instruction tuning์ ๋ค์์ ํตํด์ ์ฐ์ฅํ์๋ค. ๊ฒฐ๊ณผ๋ก ๋์จ instruction-finetuned ๋ชจ๋ธ์ few-shot, zero-shot, CoT ํ๊ฐ์์ ๊ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๊ฒ์ ํ ๋๋ก ์ด ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- fine-tuning task์ ์๋ฅผ ๋๋ฆผ
- ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆผ
- CoT ๋ฐ์ดํฐ์์ fine-tune
instruction fine-tuning์ ๋ํ scaling curve. ๋ ผ๋ฌธ์์๋ instruction fine-tuning์ 2๊ฐ์ง ์ค์ ์์๋ฅผ ํ์ ํ์๋ค: ๋ชจ๋ธ์ ์ฌ์ด์ฆ & fine-tuning task์ ์. ์ด ๋ ์์์ ๋ํ scaling curve๋ฅผ ๊ทธ๋ ค๋ด์ผ๋ก์จ ๋ชจ๋ธ ์ฌ์ด์ฆ & fine-tuning task์ ์ ๋ ๋ค๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ๊ณ์์ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ non instruction finetuning ๋ชจ๋ธ๊ณผ instruction finetuning ๋ชจ๋ธ์ ๋ง์ง์ ์ค์ด๋ค์ง ์์๋ค. ์ด๋ ํฅํ ์ฐ๊ตฌ์๋ instruction fine-tuning์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋ฏธ์์ ๊ฒ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
CoT fine-tuning์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ค์ํจ. ๋น๋ก ์ด์ ์ instruction fine-tuning ์ฐ๊ตฌ๋ค์์ non-CoT task์์ fine-tuneํ๋ ๊ฒ์ด unseen non-CoT task์ ๋ํด์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ์ง๋ง, ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด ์ค์ ๋ก๋ non-CoT task์์ fine-tuneํ ๋ชจ๋ธ์ CoT task์์ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ์ด๋๋ค๋ ๊ฒ์ ์ฐพ์๋๋ค. ์ด๋ ๊ฒ ์ ํ๋ CoT ์ฑ๋ฅ์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก non-CoT ๋ฐ์ดํฐ์ CoT ๋ฐ์ดํฐ ๋ชจ๋์์ ๊ณต๋์ผ๋ก fine-tune ํ์๋ค. joint fine-tuning์ non-CoT task์์์ ์ฑ๋ฅ์ ์ ์งํ๊ณ CoT ์ฑ๋ฅ์ ์๋นํ ๋์์ง๊ฒ ๋ง๋๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
instruction fine-tuning์ ๋ชจ๋ธ ๊ฐ์ ์ผ๋ฐํ๋ฅผ ํด์ค. ๋ ผ๋ฌธ์์๋ ๋ค์ํ ๋ชจ๋ธ์ ์ฌ์ฉํจ์ผ๋ก์จ instruction fine-tuning์ ์ผ๋ฐ์ฑ์ ๊ด์ฐฐํ์๋ค. ์ด ๋ฐ๊ฒฌ์ T5 ๋ชจ๋ธ ๋๋ decoder-only LM์์ instruction fine-tuning์ ํจ๊ณผ๋ฅผ ์ ์ฆํ ์ด์ ์ฐ๊ตฌ์ ์ผ์นํ๋ค. ๊ฒ๋ค๊ฐ instruction fine-tuning์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ์ ์ฉ๋ ๊ธฐ์ ์ธ UL2R๊ณผ๋ ์ ๋ฌถ์ด๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ๋ชจ๋ธ์ด ์ด ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ธ Flan-U-PaLM์ด๋ค.
instruction fine-tuning์ ์ฌ์ฉ์ฑ์ ๊ฐ์ ํ๊ณ ์ ์ฌ์ ์ํ์ ์ํํจ. pre-trained checkpoint๋ฅผ ๋ฐ๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋น์ ๋ฌธ๊ฐ์๊ฒ๋ ์ด๋ ค์ธ ์ ์๋ค. ์ด๋ ์๋ํ๋ฉด NSP objective์์ ํ์ต๋ ๋ชจ๋ธ์ ์ธ์ ์์ฑ์ ๋ฉ์ถ๋์ง ์ ๋ชจ๋ฅด๊ณ , ์ง๋ฌธ์ ์๋ตํ๊ธฐ ๋ณด๋ค๋ ์ ๋ ฅ์ ๋ฐ๋ณตํ๋ ์ค์๋ฅผ ์ ์ง๋ฅผ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. Flan-PaLM์ ์ฌ๋ฌ AI ๋ฒค์น๋งํฌ์์ PaLM์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. Flan-PaLM์ ์ถ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์ง๋ค.
- ๋ ๋์ human rating
- ์ ํด ์ธ์ด๋ฅผ ์ธก์ ํ๋ AI ๋ฒค์น๋งํฌ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
instruction fine-tuning์ ๋น๊ต์ ๊ณ์ฐ ํจ์จ์ ์. ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ์ฑ๋ฅ ๊ฐ์ ์๋ ์ข์ง๋ง, ์๋นํ ๊ณ์ฐ๋์ ํ์๋ก ํ๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ณ์ฐ ํจ์จ์ ๊ธฐ์ ์ ๋ง๋ค์ด์ผ ํ๋ค: ์ด๋ฌํ ๊ธฐ์ ์ ๊ธฐ์กด์ checkpoint๋ฅผ ํ์ฉํด์ ๋ชจ๋ธ์ ์ถ๋ก ๋น์ฉ์ ๋ณํ๊ฐ ์๊ฒ ํด์ผํจ. instruction fine-tuning์ ๋น๊ต์ ์ ์ ์์ ๊ณ์ฐ์ผ๋ก๋ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค. ๊ฒ๋ค๊ฐ, instruction fine-tuning์ ์ฌ์ฉํ๋ ๋ ์์ ๋ชจ๋ธ์ด, ์ฌ์ฉํ์ง ์๋ ๋ ํฐ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค.
์ต์ข ์ ์ผ๋ก ์์ฝํ์ฌ ์์ ์ฆ๊ฑฐ๋ค์ ์ด๋ป๊ฒ instruction fine-tuning์ด ๋ค์ํ ํ๊ฐ์์ ์ฑ๋ฅ์ ํฅ์์ํค๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
์ถ์ฒ
https://arxiv.org/abs/2210.11416
Scaling Instruction-Finetuned Language Models
Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number
arxiv.org