The overview of this paper
LLM์ fine-tune ํ๋๋ฐ ๊ด๋ฒ์ํ supervision์ ํ์๋ก ํ๋ ๋ฐ๋ฉด์ ์ฌ๋์ ์ธ๋ถ์ ์ ๋ ฅ ์์ด self-thinking์ ํจ์ผ๋ก์จ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค. ์ด ๋ ผ๋ฌธ์์๋ LLM๋ ์ค์ง unlabeled dataset๋ง์ ์ฌ์ฉํ์ฌ self-improve ํ ์ ์๋ค๋ ๊ฒ์ ์ค๋ช ํ๋ค. ๋ ผ๋ฌธ์์๋ CoT prompting๊ณผ Self-Consistency๋ฅผ ์ฌ์ฉํด์ unlabeled question์ ๋ํ 'high-confidence' ratinoale-augmented answer๋ฅผ ์์ฑํ๊ธฐ ์ํด PLM์ ์ฌ์ฉํ๊ณ ์ด self-generated solution์ ์ด self-generated solution์ ํ๊น output์ผ๋ก ํด์ LLM์ fine-tune ํ๋ค. ๋ ผ๋ฌธ์ ์คํ์์๋ ์ด๋ ํ ground-truth ๋ผ๋ฒจ ์์ด 540B-parameter LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์์ผ์ SoTA๋ฅผ ๋ฌ์ฑํ๋ค.
Table of Contents
1. Introduction
2. Method
3. Experimental Setup
4. Results
1. Introduction
๋๊ท๋ชจ ํ ์คํธ corpus์์ ํ์ต๋ ๋ชจ๋ธ์ ๋๋ผ์ด ๋ฅ๋ ฅ์๋ ๋ถ๊ตฌํ๊ณ , ๊ทผ๋ณธ์ ์ผ๋ก few-shot baseline ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ ์์ง ๊ด๋ฒ์ํ ์์ high-qulaity supervised ๋ฐ์ดํฐ์ ์์์ fine-tuning์ ํ์๋ก ํ๋ค. ์ด high-quality ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํ ์๋นํ ๋ ธ๋ ฅ์ด ์์๋ ๋ฐ๋ฉด์, ๋ฉํ์ธ์ง ํ๋ก์ธ์ค์์๋ high-quality ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ์์งํด์ ์ธ๋ถ ์ ๋ ฅ ์์ด ์ค์ค๋ก ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ ํ ์ ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ LLM์ด ์ด๋ป๊ฒ supervised data ์์ด ์ด๋ค์ ์ถ๋ก ๋ฅ๋ ฅ์ self-improve ํ ์ ์์๋ ๊ฒ์ธ์ง์ ๋ํด ์ฐ๊ตฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ค์ง ๋ค์ํ NLP task ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ์ ์ ๋ ฅ ์ํ์ค๋ง์ ์ฌ์ฉํด์ PLM์ด in-domain & out-of-domain task ๋ชจ๋์ ๋ํด ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค. ๋ ผ๋ฌธ์ ์ฌ์ฉ๋ method๋ ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๊ณ , ๊ทธ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- few-shot CoT๋ฅผ prompt๋ก ์ฌ์ฉํด์ ๋ค์ํ ์์ธก์ ์ํ๋งํจ
- high-confidence ์์ธก์ majority voting(Self-Consistency)๋ฅผ ์ฌ์ฉํด์ ํํฐ๋ง
- ์ด high-confidence ์์ธก์์ LLM์ fine-tuneํจ
๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ greedy & multi-path ํ๊ฐ ๋ชจ๋์์ ๊ฐ์ ๋ ์ถ๋ก ์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฐ ๋ฐฉ์์ผ๋ก fine-tune ๋ ๋ชจ๋ธ์ Language Model Self-Improved(LMSI)๋ผ๊ณ ์ด๋ฆ ๋ถ์๋ค. ์ด ๋ฐฉ์์ ์ฌ๋์ ๋๊ฐ ํ์ตํ๋ ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ๋ค.
๋ ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค:
- LLM์ ground-truth output ์์ด CoT ์ถ๋ก ์ ํ์ฉํจ์ผ๋ก์จ self-improve ํ ์ ์๋ค. ๋ํ ์ ๋งํ in-domain multi-task ์ฑ๋ฅ๋ฟ๋ง ์๋๋ผ out-of-domain ์ผ๋ฐํ๋ ๋ฌ์ฑํ ์ ์๋ค๋ ๊ฒ์ ์ค๋ช ํ๋ค.
- training ํฌ๋งทํ ๊ณผ ์ํ๋ง ํฌ๋งทํ ์ ๋ํ ablation & ๊ฐ์ฅ ์ข์ ๋์์ธ ์ ํ์ ์์๋ธ๋ค.
- self-improve๋ฅผ ์ํ ์๋ก ๋ค๋ฅธ ๋ ๊ฐ์ง ๋ฐฉ์์ ์ฐ๊ตฌํ์๋๋ฐ, ๋ชจ๋ธ์ด ํ์ ๋ input question์ผ๋ก๋ถํฐ ์ถ๊ฐ์ question์ ์์ฑํ๋ ๊ฒ๊ณผ few-shot CoT prompt ํ ํ๋ฆฟ์ ์์ฑํ๋ ๊ฒ์ด๋ค.
2. Method
LMSI์ ๊ฐ์๋ ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ค: pre-trained LLM $M$๊ณผ question-only training dataset $D^{train} = \left\{ x_{i} \right\}_{i=1}^{D}$์ few-shot CoT example์ด ํจ๊ป ์ฃผ์ด์ง๋ค. ์ฌ๊ธฐ์ $D^{train}$์์ ๊ฐ question $x_{i}$์ ๋ํ $m$ ๊ฐ์ ์ถ๋ก ๊ฒฝ๋ก์ answer $\left\{ r_{i1}, r_{i2}, \cdots, r_{im}\right\}$๋ฅผ ์์ฑํ๊ธฐ ์ํด sampling temperature $T > 0$์ ์ฌ์ฉํ ๋ค์ค ๊ฒฝ๋ก ๋์ฝ๋ฉ์ ์ ์ฉํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ์ผ๊ด๋๊ณ , high-confident ํ ์๋ต์ ์ ํํ๊ธฐ ์ํด majority voting(Self-Consistency)๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ๋ค์์ ๊ฐ์ฅ ์ผ๊ด๋ ๋๋ต์ ๋ด๋๋ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ ์ง์ํค๊ณ augmentation์ ์ํด mixed format์ prompt์ answer๋ฅผ ์ ์ฉํ๊ณ ์ด self-generated ์ถ๋ก -๋๋ต ๋ฐ์ดํฐ์์ ๋ชจ๋ธ์ fine-tune ํ๋ค.
2-1. Generating and Filtering Multiple Reasoning Paths
๊ฐ training question $x_{i}$์ ๋ํด $m$ ๊ฐ์ CoT ์ถ๋ก ๊ฒฝ๋ก($\left\{ r_{1i}, r_{2i}, \cdots, r_{im}\right\}$)๋ฅผ ์ํ๋งํ๋๋ฐ(ํ 1), ์ด๋ค์ ์์ธก๋ answer $\left\{ y_{i1}, y_{i2}, \cdots, y_{im}\right\}$๋ฅผ ๋ง๋ค๊ธฐ ์ํด "The answer is"๋ก ๋๊ฐ์ output parsing์ ์ ์ฉํ์๋ค. ๊ฐ์ฅ ์ผ๊ด๋ answer๋ majority voting์ ์ํด ์ ํ๋๊ณ $\tilde{y}_{i}$๊ฐ ์ต์ข ๋๋ต์ผ๋ก ๋๋ฌํ๋ CoT ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ํํฐ๋งํด์ self-training data์ ์ง์ด๋ฃ๋๋ค.
๋ ผ๋ฌธ์์๋ GSM8K training set์์ ๊ฐ question์ ๋ํ self-generated CoT ๊ฒฝ๋ก์ accuracy์ confidence ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ทธ๋ํ๋ก ๋ํ๋๋ค(๊ทธ๋ฆผ 2). ์ฌ๊ธฐ์ confidence๋ $\tilde{y}$๋ก ์ด๋๋ CoT ๊ฒฝ๋ก์ ์/์ด ๊ฒฝ๋ก์ ์์ด๋ค. ๊ทธ๋ฆผ 2์ y์ถ์ ํน์ confidence ํ์์ $\tilde{y}$์ accuracy์ด๋ค. ๋๊ทธ๋ผ๋ฏธ ์์ญ๊ณผ ์๊น์ ์งํจ์ ํน์ confidence ํ์์ question์ ์๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ confident answer๋ correct์ผ ํ๋ฅ ์ด ๋๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์๋ค. question์ด ๋ง์ ์ผ๊ด๋ CoT ๊ฒฝ๋ก๋ฅผ ๊ฐ์ง ๋, ํด๋นํ๋ $\tilde{y}$๋ correct์ผ ํ๋ฅ ์ด ๋๊ณ , ๋ฐ๋๋ก $\tilde{y}$๊ฐ ํ๋ ธ์ ๋ ์ ์ CoT ๊ฒฝ๋ก์ ์ํด ์ง์ง๋์ ํ๋ฅ ์ด ๋๋ค.
2-2. Training with Mixed Formats
LM์ด ๊ตฌ์ฒด์ ์ธ prompt ๋๋ answer style์ ์ค๋ฒํผํ ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด self-training ๋ฐ์ดํฐ์์ ํผํฉํ ๊ฐ ์ถ๋ก ๊ฒฝ๋ก์ ๋ํด 4๊ฐ์ง ํ์์ ๋ง๋ค์๋ค. ํฌ๋งท์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ๋ค. training sample์ ํผํฉ๋ ํฌ๋งท์ PLM $M$์ fine-tune ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
- ์์์ CoT example์ด ์๋ก์ด question ์์ ์ถ๊ฐ๋์ง๋ง LM output์ ํํฐ๋ง๋ CoT ์ถ๋ก ๊ฒฝ๋ก์ ๋๊ฐ์์ง๊ฒ ํ์ต๋๋ค.
- question์ example๊ณผ ์ด๋ค์ direct answer๋ฅผ standard prompting์ผ๋ก ์ฌ์ฉํ๋ค. ๊ทธ๋ฆฌ๊ณ LM output์ ์ค์ง direct answer๋ง ํฌํจํ๋๋ก ๊ฐ์ ๋๋ค.
- 1๊ณผ ์ ์ฌํ์ง๋ง question-answer ์์ ์์๊ฐ ์ฃผ์ด์ง์ง ์์. ๋ชจ๋ธ์ด CoT ์ถ๋ก ์ ์ถ๋ ฅํ๊ธฐ๋ฅผ ์ํจ
- 2์ ์ ์ฌํ์ง๋ง question-answer ์์ ์์๊ฐ ์ฃผ์ด์ง์ง ์์.
2-3. Generating Questions and Prompts
training question ์ธํธ & ์์์ human-written CoT example์ด prompt๋ก ์ฃผ์ด์ง๋ฉด LMSI๋ ๋ชจ๋ธ์ด self-improve ํ๋๋ก ํ๊ฒ ํด ์ค๋ค. ํ์ง๋ง training question ๋๋ CoT example์ ์๊ฐ ์ ํ๋๋ฉด ์ถฉ๋ถํ training sample์ ๋ง๋ค์ง ๋ชปํ ์๋ ์๋ค. ์น์์ question์ ์์งํ๋ ๊ฒ์ human engineering์ ํ์๋ก ํ๋ค. ์ด๋ฌํ ์ฌ๋์ ํ์๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ example prompt ๋ฟ๋ง ์๋๋ผ ๋ ๋ง์ training question์ ์ด๋ป๊ฒ self-generate ํ๋์ง ์กฐ์ฌํ์๋ค.
Question Generation. ์ด์ ์ ๋ฐ์ดํฐ augmentation method๋ ๋ถ๋ฅ task๋ก ๋์์ธ๋๊ณ ๊ฐ few-shot example์ ์ํ ground-truth ๋ผ๋ฒจ์ ํ์๋ก ํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก ๋๋ค ํ๊ฒ ์ฌ๋ฌ question์ ์ ํํ๊ณ ์ด๋ค์ ๋๋ค ์์๋ก ์ฐ๊ฒฐํด์ input prompt๋ก ๋ง๋ค์๋ค. ๊ทธ๋ฆฌ๊ณ LM์ด ์ฐ์๋ ์ํ์ค๋ฅผ ์๋ก์ด question์ผ๋ก ๋ง๋ค๋๋ก ํ๋ฝํด ์ค๋ค. ์๋ก์ด question์ ๋๊ท๋ชจ ์ธํธ๋ฅผ ์ป๊ธฐ ์ํด ์ด ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ณตํ ๋ค์์ highly confident answer๋ฅผ ๊ฐ์ง๋ question๋ง์ ์ ์งํ๊ธฐ ์ํด Self-Consistency๋ฅผ ์ฌ์ฉํ์๋ค. ์ด question๋ค์ self-generated training question์ผ๋ก ์ฌ์ฉ๋๋ค.
Prompt Generation. question ์ธํธ๊ฐ ์ฃผ์ด์ง๋ฉด ์ฌ๋์ CoT example์ ์ต์ข ๋๋ต์ผ๋ก ์ด๋๋ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์์ฑํ๋ค. manual prompt๊ฐ ์๋ zero-shot ์ธํ ์์ ๋ชจ๋ธ ์์ ์ ์ฌ์ฉํด ์ด๋ฌํ CoT ๊ฒฝ๋ก๋ฅผ ๋ง๋ค ์ ์๋ค. Zero-shot-CoT ๋ ผ๋ฌธ์ ๋ฐ๋ผ์ ๋๋ต์ "A: Let's think step-by-step"์ผ๋ก ์์ํ๊ณ LM์ด ์ฐ์ด์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์์ฑํ ์ ์๋๋ก ํ๋ฝํด ์ฃผ์๋ค. ๊ทธ๋ค์์ ์ด๋ ๊ฒ ์์ฑ๋ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ few-shot CoT prompting์ ์ํ ์ถ๋ก ๊ฒฝ๋ก๋ก ์ฌ์ฉํ์๋ค.
3. Experimental Setup
Tasks & Datasets. ๋ ผ๋ฌธ์์๋ LMSI์ ํจ๊ณผ๋ฅผ 3๊ฐ ์ ํ์ task์์ ์ค๋ช ํ์๋ค: Arithmetic Reasoning, Commonsense Reasoning, Natural Language Inference.
Models, Training settings and Hyperparameters. ๋ ผ๋ฌธ์ ์คํ์ Transformer ๊ธฐ๋ฐ 540B LM์์ ์งํ๋์๋ค.
4. Results
4-1. Main Results
๋ ผ๋ฌธ์์๋ ํ 3์์ base PaLM-540B ๋ชจ๋ธ์ ๊ฒฐ๊ณผ์ LMSI๋ฅผ ์ ์ฉํ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ฐ ๋ชจ๋ธ์ ๋ํด test time ์ค์ 6๊ฐ์ ๋ฐ์ดํฐ์ ์์ 3๊ฐ์ ์๋ก ๋ค๋ฅธ prompting method๋ฅผ ์ ์ฉํ์๋ค: standard-prompting, CoT-prompting, Self-Consistency. ๊ทธ ๊ฒฐ๊ณผ, LMSI๋ฅผ ์ ์ฉํ ํ์ ๋ชจ๋ 3๊ฐ์ prompting method์ ์ฑ๋ฅ์ด ํฐ ๊ฐ์ผ๋ก ํฅ์๋์๋ค. ์ด๊ฒ์ ๋ ผ๋ฌธ์์ ์ ์๋ method๊ฐ ๊ฝค ํจ๊ณผ์ ์ด์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ฒ๋ค๊ฐ, LMSI์ ๋จ์ผ ๊ฒฝ๋ก CoT-Prompting ์ฑ๋ฅ์ LMSI๊ฐ ์๋ ๋ค์ค ๊ฒฝ๋ก Self-Consistency์ ์ฑ๋ฅ๋ณด๋ค ๋น์ทํ๊ฑฐ๋ ๋ ๋์๋ค. ์ด๊ฒ์ LMSI๊ฐ LM์ด ์ฌ๋ฌ ๊ฐ์ ์ผ๊ด๋ ์ถ๋ก ๊ฒฝ๋ก๋ก๋ถํฐ ํ์ตํ ์ ์๊ฒ ๋์์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ํ LMSI์ ๊ฒฐ๊ณผ์ ์ด์ SoTA๋ค์ ๊ฒฐ๊ณผ๋ฅผ ํ 3์์ ๋น๊ตํ์๋ค. 6๊ฐ์ ๋ฐ์ดํฐ์ ์ค 5๊ฐ์ ๋ฐ์ดํฐ์ ์์ LMSI๋ ์ด์ ์ SoTA๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Multi-task self-training from unseen tasks. LMSI์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ค๋ช ํ๊ธฐ ์ํด ์ 6๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ training-set question์ ํผํฉ์์ self-training์ ์คํ์ ์ํํ์๋ค. ๊ทธ ๋ค์์ ํ 4์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ํ๊ฐ๋ฅผ ์ํด 6๊ฐ์ Out-Of-Domain(OOD) task์์ ๋๊ฐ์ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ฌ์ฉํ์๋ค. ํ 4๋ก๋ถํฐ LMSI๋ ๋ชจ๋ OOD task์์ ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ ๊ด์ฐฐํ ์ ์์๋ค. ์ด๊ฒ์ LM์ ์ ๋ฐ์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ์ด ๊ฐ์ ๋์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Importance of training with Chain-of-Thought formats. CoT๋ฅผ ์ฌ์ฉํ์ฌ LM์ ํ์ต์ํค๋ ๊ฒ์ ์ค์์ฑ์ ์ค์ง direct answer๋ฅผ ์ฌ์ฉํด ํ์ตํ ๊ฒ๊ณผ ๋น๊ตํ์ฌ ์ค๋ช ํ์๋ค. ํ 5์์ 4๊ฐ์ ํฌ๋งท์ ์ฌ์ฉํ LMSI์ ๊ฒฐ๊ณผ์ ์ค์ง direct answer format์ ์ฌ์ฉํ LMSI์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ฒฐ๊ณผ๋ CoT format ์์ด๋ LM์ด self-improve ํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๋ชจ๋ 4๊ฐ์ ํฌ๋งท์ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋น๊ตํด์ ํฐ ์ฑ๋ฅ ์ ํ๊ฐ ์ผ์ด๋๋ค.
4-2. Pushing the Limit of Self-Improvements
Self-Generating Questions. ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก ํ๊น ๋๋ฉ์ธ์์ ์ค์ง ์ ํ๋ training question๋ง์ด ์๋ few-shot setting์ ์ถ๊ฐ์ ์ผ๋ก ํ๊ตฌํ์๋ค. GSM8K์์ 10๊ฐ์ real question์ few-shot ์ํ๋ก ์ํ๋งํ๊ณ method์์ ์ฌ์ฉ๋๋ ๋ ๋ง์ training question๊ณผ ํจ๊ป LM์ self-train ์์ผฐ๋ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ํ 6์ ๋ํ๋ ์๋ค. self-generated question์ ์ฌ์ฉํด๋ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ์ ์ ๋ณด์ฌ์คฌ์ง๋ง real training-set question์ ์ฌ์ฉํ๋ฉด ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ด๋๋ค.
Self-Generating Few-Shot CoT Prompts. ๋ ผ๋ฌธ์์๋ in-domain CoT example์ด task์ ๋ํด ์ ๊ณต๋์ง ์๋ ๊ฒฝ์ฐ๋ฅผ ํ๊ตฌํ์๋ค. ๋ ผ๋ฌธ์์๋ LM์ ์ฌ์ฉํด์ CoT example์ ์์ฑํ๊ธฐ ์ํด Step-by-Step method๋ฅผ ์ ์ฉํ์๊ณ , ๊ทธ ๊ฒฐ๊ณผ๊ฐ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๋ค. self-generated step-by-step CoT example์ ์ฌ์ฉํ few-shot prompting์ step-by-step baseline์ ์๋นํ ๋ฅ๊ฐํ๊ณ , human-written few-shot CoT์ ์ฑ๋ฅ๊ณผ ๊ฑฐ์ ๋ง๋จน์๋ค. prompt example์ ์ ํ๋ ์ ํ๋์๋ ๋ถ๊ตฌํ๊ณ 'Few-shot w/ Step-by-Step'์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ค์ค ๊ฒฝ๋ก ๋์ฝ๋ฉ์ ์ํด ๋ณด๋ค ๋ค์ํ CoT prompt๋ฅผ ํ์ฉํ๋ ๋ฐ์์ ๋น๋กฏ๋ ๊ฒ ๊ฐ๋ค.
4-3. Distillation to Smaller Models
๋ ผ๋ฌธ์์๋ ์ง์์ด smaller model๋ก distill ๋ ์ ์๋์ง์ ๋ํด ์ฐ๊ตฌํ์๋ค. PaLM-540B์ ์ํด ์์ฑ๋ ๋๊ฐ์ training ์ํ์ ์ฌ์ฉํ์ง๋ง, smaller size model์์ fine-tune์ ํ์๋ค. CoT prompting์ ๊ฒฐ๊ณผ๊ฐ ํ 7์ ๋ณด์ด๊ณ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด LMSI๋ก๋ถํฐ distill ํ์ smaller model์ larger model์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
์ถ์ฒ
https://arxiv.org/abs/2210.11610