The overview of this paper
์ด๋ป๊ฒ <100B LM์ step-by-step reasoning์ ์ฃผ์ ์ํฌ ์ ์์๊น? ์ด ์ง๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ 1,060๊ฐ์ task์ ๊ฑธ์ณ์ 1.88M ๊ฐ์ CoT ์์๋ฅผ ๊ฐ๋ ์๋ก์ด instruction-tuning ๋ฐ์ดํฐ์ ์ธ CoT Collection์ ์๊ฐํ์๋ค.
๋ ผ๋ฌธ์์๋ FLAN-T5๋ฅผ CoT Collection๊ณผ ํจ๊ป ๊ณ์์ ์ผ๋ก fine-tuning ํ๋ ๊ฒ์ด unseen task์์ ๋ ๋์ CoT๋ฅผ ์ํํ ์ ์๊ฒ ๋ง๋ค์ด ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. The CoT Collection
3. Zero-shot Generalization
4. Few-shot Generalization
1. Introduction
CoT๋ ๋ชจ๋ธ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํฅ์์์ผ ์ฃผ์ง๋ง, ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ ๊ฐ์ง๋ค.
- 100B ์ด์์ LLM์ ํ์๋ก ํจ
- smaller model์์๋ ๋๊ฐ์ ์ด์ ์ ๋ณด์ฌ์ฃผ๋์ง ์ ์ฆ๋์ง ์์
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ํ ๋ง์ ์๋๋ค์ด ์์์ง๋ง, ๊ด๋ฒ์ํ task์ ๋ํ CoT๊ฐ ์์ง ์ค๋น๋์ด ์์ง ์๋ค. ๊ทธ๋์ ์ด๋ฌํ ๊ฐญ์ ์ค์ด๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ FLAN Collection์ผ๋ก๋ถํฐ ์ถ์ถ๋ 1,060๊ฐ์ task์ ๊ฑธ์น 1.88M ๊ฐ์ CoT ์์๋ฅผ ๊ฐ์ง๋ instruction-tuning ๋ฐ์ดํฐ์ ์ธ CoT Collection์ ์ ์ํ์๋ค.
์ด CoT Collection์์๋ ๊ฐ instance๊ฐ input instance์ ์ถ๊ฐ๋๋ instruction, ground-truth output, CoT ์์๋ก ๊ตฌ์ฑ๋์ด ์๋ค. CoT fine-tuning์ instruction tuning์ ์ฌ์ฉํจ์ผ๋ก์จ smaller LM์๊ฒ ๊ฐ์ ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฃผ๊ณ ์ ํ์๋ค.
๋ ผ๋ฌธ์ ๋ชจ๋ธ์ธ C2F2๋ CoT Collection์ ์ฌ์ฉํ์ฌ FLAN-T5๋ฅผ ๊ณ์์ ์ผ๋ก fine-tune ํจ์ผ๋ก์จ ์ป์ด์ก๋ค. ์ด ๋ชจ๋ธ์ unseen task์ ๋ํด CoT prompting์ ์ํํ๊ธฐ ์ํ zero-shot ๋ฅ๋ ฅ์ ์๋นํ ๊ฐ์ ์ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ, CoT Collection์ ์ฌ์ฉํด instruction-tuned ๋ชจ๋ธ์ ๊ณ์์ ์ผ๋ก fine-tune ํ๋ ๊ฒ์ ์์ ๊ท๋ชจ์ ๋ฐ์ดํฐ & multilingual ๋ฐ์ดํฐ์์๋ ํจ๊ณผ์ ์ด์๋ค. zero-shot ์ฑ๋ฅ์ ์ถ๊ฐ์ ์ผ๋ก ํฅ์์ด ๊ด์ฐฐ๋จ์ ๋ฐ๋ผ C2F2๋ few-shot learning์์ ๋ ๋์ base model๋ก ์ฌ๊ฒจ์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. C2F2๋ HuggingFace์ ๊ณต๊ฐ๋์ด ์๊ณ , ์๋ ์ถ์ฒ์ ๋งํฌ๋ฅผ ๋จ๊ฒจ๋๋๋ก ํ๊ฒ ๋ค.
C2F2์ ์คํ ๊ฒฐ๊ณผ๋ CoT fine-tuning๊ณผ instruction tuning ๊ฐ์ ์๋์ง๊ฐ ์ ์ฌ์ ์ผ๋ก smaller model์ ๊ฐ์ ์ ๋ณ์ ์ ์๋ค๋ ๊ฒ์ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ zero-shot & few-shot learning ์ธํ ์์ smaller model์ด ์ด์ ์ ์ป์ ์ ์์๋ค๋ ๊ฒ์ ๋ํ๋ธ๋ค. ํนํ, zero-shot & few-shot learning์ ๋ฌธ๋งฅ์์ ๋ ผ๋ฌธ์ ๋ถ์์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ํ๋ถํ supervision์ ์ถ์ถํ๋ ๊ฐ๋จํ ๋ ์ํผ์ CoT fine-tuning์ ํตํด CoT ๋ฅ๋ ฅ์ ์ผ๊ธฐํ๋ ๊ฒ์ ๊ธฐ์กด LM์ ์ถ๊ฐ์ ์ผ๋ก ๊ฐ์ ์ํฌ ์ ์์ ๊ฒ์ด๋ค.
2. The CoT Collection
CoT Collection์ 1,060๊ฐ์ NLP task์ ๊ฑธ์ณ์ ์ป์ด์ง 1.88M ๊ฐ์ CoT ์์๋ฅผ ํฌํจํ๋ instruction-tuning ๋ฐ์ดํฐ์ ์ด๋ค. CoT Collection์ HuggingFace์ ๋ชจ๋ ๊ณต๊ฐ๋์ด ์์ผ๋ ๊ด์ฌ์ด ์๋ค๋ฉด ์ฐพ์๋ณด๊ธธ ๋ฐ๋๋ค(์๋ ์ถ์ฒ๋ฅผ ํ์ธํ๊ธธ ๋ฐ๋). ๊ทธ๋ฆผ 1์ CoT Collection์ด ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์ด ์๋์ง๋ฅผ ๋ฌ์ฌํ๊ณ ์๋ค.
2-1. CoT Rationale Augmentation
input $X = [I, z]$๊ฐ ์ฃผ์ด์ง๋ฉด LLM์ ์ฌ์ฉํ ICL์ ์ ์ฉํจ์ผ๋ก์จ CoT ์์ $r$์ ์ป๊ฒ ๋๋ค. ์ฌ๊ธฐ์ $I$๋ instruction์ด๊ณ , $z$๋ answer $y$๊ฐ ํจ๊ป ์๋ instance์ด๋ค. ์ด๊ฒ์ ์ด์ ์ LLM์ ์ฌ์ฉํด ์๋ก์ด instance๋ฅผ ์์ฑํ๋๋ฐ ์ฃผ๋ก ์ง์คํ๋ ์ฐ๊ตฌ๋ค(Self-Consistency, Unnatural-Instructions ๋ฑ)๊ณผ ๋ค๋ฅด๋ค.
Source Dataset Selection. CoT ์์ ์ถ์ถ์ ์ํ ์์ค ๋ฐ์ดํฐ์ ์ผ๋ก FLAN Collection, Super-NI, FLAN์ ์ฌ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ์ ๋ค๋ก๋ถํฐ 1,060๊ฐ์ task๋ฅผ ์ ํํ๊ณ , ๋ค์์ ๊ธฐ์ค์ ํตํด ์ขํ๋ค:
- multilingual dataset์ ์ ์ธํจ. T5๊ฐ ์ฃผ๋ก ์์ด ๋ฐ์ดํฐ์ ์๋ง ์ง์คํ๊ธฐ ๋๋ฌธ์.
- long-form output์ ๊ฐ์ง๋ ์์ฑ task์ ์๋ธ์ ์ ์ ์ธํจ.
- publicly availableํ์ง ์์ ๋ฐ์ดํฐ์ ์ ์ ์ธํจ.
- input & output์ด ์๋ก ์๊ด ์๋ ๋ฐ์ดํฐ์ ์ ์ ์ธํจ.
- data overlap์ด ์์ผ๋ฉด data overlap์ด ์๋ ๋ฐ์ดํฐ์ ์ค ํ๋๋ง ์ฌ์ฉํ๊ณ , ๋๋จธ์ง๋ ๋ชจ๋ ์ ์ธํจ.
- LLM์ ์ํด ์์ฑ๋ CoT ์์๋ ๋ช ๊ฐ์ task(sentiment analysis, sentence completion, coreference resolution, word disambiguations)์์ uninformative ํ๊ณ , ๋งค์ฐ ์งง์ ๊ฒฝํฅ์ด ์์. ๊ทธ๋์ ์ด๋ฌํ ๋ฐ์ดํฐ์ ๋ค์ ์ ์ธํจ.
Prompt Creation. LLM์ ์ฌ์ฉํด ICL์ ์งํํ๊ธฐ ์ํด ๊ฐ task ๋น demonstration์ ์ค๋นํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ง๊ด์ ์ด๋ค. ํ์ง๋ง ๋ ผ๋ฌธ์์๋ ์ข ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๋น์ทํ task๋ผ๋ฆฌ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด์ ๊ทธ๋ฃน ๋น 6~8๊ฐ์ demonstration์ ๋ง๋ค์๋ค.
๊ตฌ์ฒด์ ์ผ๋ก FLAN Collection์ผ๋ก๋ถํฐ ์ํ๋ง๋ ์ฌ๋ฌ instance๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ ์ฌ๋์ CoT ์์๋ฅผ ์์ฑํ๊ณ , ๋๋จธ์ง ํ ์ฌ๋์ A/B testing์ ์ค์ํ์ฌ ๋ ์ค์ ๋ ๋์ CoT ์์๋ฅผ ์ ํํ๋ค. ์ด ํ๋ก์ธ์ค๋ฅผ ํตํด 26๊ฐ์ task์ ๊ฑธ์ณ์ ์ด 135๊ฐ์ CoT ์์๋ฅผ ์์ฑํ์๋ค.
CoT Rationale Augmentation. augmentation process์ ์ฃผ๋ ๋ชฉํ๋ ์ผ๊ด๋๋ CoT ์์๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ OpenAI์ Codex ๋ชจ๋ธ์ ํ์ฉํ์๋ค. ์์์ ์ผ๋ก ๋ํ๋ผ ๋, $(X_{i}^{t}, y_{i}^{t})$๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ชฉํ๋ ํด๋นํ๋ CoT ์์ $r_{i}^{t}$๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์ฌ์ ์คํ ์ค์ demonstration์์ ๋ผ๋ฒจ์ ์์ ์์ ๋๋ ๊ฒ์ด ์ข์ ํ๋ฆฌํฐ์ ์์๋ฅผ ๋ง๋๋๋ฐ ์ค์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ฒ ๋ ์ด์ ๋ LLM์ด task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ์๋ฅผ ์ค์ฌ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ์๋ค.
Filtering. ์ฌ๋ฌ CoT ์์๋ฅผ ์์ฑํ ํ์, high-quality CoT ์์๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ๋ค์์ ๊ธฐ์ค์ ์ ์ฉํด ํํฐ๋ง์ ์ ์ฉํ์๋ค.
- ์ต์ ํ ๋ฒ๋ ground-truth answer๋ฅผ ํฌํจํ์ง ์๋ CoT ์์๋ ์ ์ธํจ.
- 256 ์ด์์ ํ ํฐ์ ๊ฐ์ง๋ CoT ์์๋ ์ ์ธํจ.
- ์ด์ ์ ์ป์ CoT ์์์ ๋์ผํ CoT ์์๋ ์ ์ธํจ.
2-2. Analysis of CoT Collections
Quality of Rationales. CoT Collection์ ํ๋ฆฌํฐ๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ROSCOE๋ฅผ ์ฌ์ฉํด ํ๊ฐํ ๊ฒฐ๊ณผ CoT Collection์ human-authored CoT ์์์ ๋น๊ตํด์ ์ ๋ขฐ๋ ์๊ณ , ๋ฐ๋ณต์ ์ด์ง ์๊ณ , ์ ๋ณด์ ์ด๊ณ ๋ ผ๋ฆฌ์ ์ธ CoT ์์๋ฅผ ํฌํจํ๊ณ ์์๋ค. 13๊ฐ์ ROSCOE score๊ฐ ํ 1์ ๋ํ๋์๋ค.
Diversity of Rationales. FLAN-T5์ ์ฌ์ฉ๋ 9๊ฐ์ CoT ๋ฐ์ดํฐ์ ์ 'answer question'๊ณผ 'consider following'์ ํฐ ๋น์ค์ ๋ ๋ฐ๋ฉด CoT Collection์ ๋ค์ํ ํ ์คํธ ํ์์ ํฌํจํ๋ ๊ฒ์ ์ ์ ์๋ค(๊ทธ๋ฆผ 2).
3. Zero-shot Generalization
CoT Collection์์ CoT fine-tuning์ ํ๋ ๊ฒ์ด ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก unseen task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ LM์ ๋ฅ๋ ฅ์ ๊ฐ์ ์ํค๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ค์์ ๊ทธ๋ฆผ 3์ C2F2์ ์๋ ๋ฐฉ์์ ๋ณด์ฌ์ค๋ค.
Experiment #1: FLAN-T5 Setting. FLAN-T5๋ฅผ CoT Collection์ ์ฌ์ฉํด ๊ณ์์ ์ผ๋ก fine-tune ํด์ C2F2๋ฅผ ์ป์๋ค. FLAN-T5 ์ธ์๋ T5-LM, T0, Tk-Instruct, GPT-3 ๊ฐ์ ์๋ก ๋ค๋ฅธ baseline๊ณผ ๋น๊ตํ์๋ค. ๊ฒ๋ค๊ฐ, CoT fine-tuning์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ํต์ ์ธ instruction tuning์ ๋นํด ๋ ๋ฐ์ดํฐ ํจ์จ์ ์ธ์ง ํ์ธํ๊ธฐ ์ํด T5-LM์ CoT Collection์ผ๋ก ํ์ต์์ผ ๋ดค๋ค. ํ ๊ฐ์ง ์์๋ฌ์ผ ํ ์ ์ FLAN Collection์ CoT Collection๋ณด๋ค 7.98๋ฐฐ ๋ ๋ง์ ์์ 15M ๊ฐ์ instance๋ฅผ ํฌํจํ๊ณ ์๋ค๋ ๊ฒ์ด๋ค.
๊ฒฐ๊ณผ๊ฐ ํ 2์ ๋ณด์ด๊ณ ์๋ค. FLAN-T5๋ฅผ CoT Collection์์ ๊ณ์์ ์ผ๋ก ํ์ต์์ผ์ ์ป์ด์ง C2F2๋ CoT ํ๊ฐ์์ ๊ธฐ์กด FLAN-T5๋ณด๋ค ๊ฐ์ ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๋๋๊ฒ๋ CoT Collection์ด ์ด๋ ํ direct instruction data๋ฅผ ํฌํจํ์ง ์์๋ ๋ง์ด๋ค. ์ด๊ฒ์ ์ถ๊ฐ์ CoT instruction ๋ฐ์ดํฐ์ ํจ๊ป instruction-tuned ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ด LM์ผ๋ก ํ์ฌ๊ธ unseen task์ ์ ์ํ๊ฒ ํ๋ค๋ ์ฃผ์ฅ์ ์ง์งํ๋ค.
๋ฐ์ดํฐ ํจ์จ์ฑ ์ธก๋ฉด์์ T5 + CoT fine-tuning์ FLAN-T5๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ํ, T5-3B + CoT fine-tuning์ 4๋ฐฐ ํฐ T0-11B & TK-Instruct-11B๋ direct & CoT ํ๊ฐ์์ ๋ฅ๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ CoT fine-tuning์ด direct instruction tuning์ ๋นํด ์ ์ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ ธ๋ค.
Experiment #2: T0 Setting. CoT Collection์ ์ฌ์ฉํ CoT fine-tuning์ด ์ ์ ์์ task์์๋ ํจ๊ณผ์ ์ธ์ง test ํ๊ธฐ ์ํด CoT Collection์ P3 ์๋ธ์ ์ ์ฌ์ฉํด์ T5 & T0 ๋ชจ๋ธ์ ์ ์ฉํ์๋ค. T0 ์ธ์๋ T5-LM, RoE, KiC, Flipped๋ ํฌํจ์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ํ oracle ๊ฐ์ผ๋ก๋ T0-11B & GPT-3์ ์ฌ์ฉํ์๋ค.
ํ 3์ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋์๋ค. T0-3B + CoT fine-tuning์ ์ถ๊ฐ์ ์ผ๋ก T0-3B๋ฅผ ๊ฐ์ ์์ผฐ๋ค. ์ด๊ฒ์ instruction-tuned ๋ชจ๋ธ์ ์ถ๊ฐ์ CoT instruction data์ ํจ๊ป ๊ณ์์ ์ผ๋ก ํ์ต์ํค๋ ๊ฒ์ LM์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํด๊ธ์์ผ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๋์ฑ ๋๋๊ฒ๋, T5-3B + CoT fine-tuning์ T0์ ๋นํด ์ค์ง 3.22% ์ ๋์ training data๋ฅผ ์ฌ์ฉํด์ T0-3B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. direct instructtion-tuned ๋ชจ๋ธ์ธ T0-3B์ ๋น๊ตํด์ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์์๋ฅผ ์์ฑํ๊ธฐ ์ํด ํ์ตํ๋ ๊ฒ์ 3B LM๋ ๋์ฑ ํจ์จ์ ์ผ๋ก ์ผ๋ฐํํ ์ ์๊ฒ ํด ์ค๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค.
Experiment #3: Multilingual Setting. CoT fine-tuning์ด multilingual ์ธํ ์์๋ ํจ๊ณผ์ ์ธ์ง ํ ์คํธํ๊ธฐ ์ํด LMSI์ ์คํ ์ธํ ์ ์ฌ์ฉํด MGSM ๋ฒค์น๋งํฌ๋ฅผ test bed๋ก ์ฌ์ฉํด์ ํ๊ฐํ์๋ค. mT0์ ํ์ต์ํค๊ธฐ ์ํด ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ๋น๊ตํด์ single ํ๊น ์ธ์ด์ ๋ํ CoT instruction ๋ฐ์ดํฐ๋ฅผ 0.001%๋ง ์ฌ์ฉํ์๋ค. ํ๊น ์ธ์ด์ ๋ํ instruction ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํด ChatGPT๋ฅผ ์ฌ์ฉํ์ฌ ๋ฒ์ญํ์๋ค.
๊ฒฐ๊ณผ๋ ํ 4์ ๋ํ๋์๋ค. 5๊ฐ์ ์๋ก ๋ค๋ฅธ ์ธ์ด์ ๊ฑธ์ณ์ MT5-3.7B + CoT fine-tuning์ MT0-3.7B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํนํ ๋ ์ ์ ํ๊ตญ์ด, ์ผ๋ณธ์ด, ์ค๊ตญ์ด ๊ฐ์ ์ธ์ด์์ CoT instruction data์ ํจ๊ป ์ฑ๊ธ ํ๊น ์ธ์ด์์ ํ์ตํ๋ ๊ฒ์ ์ฌ๋ฌ ์ธ์ด์ ํจ๊ป ํ์ตํ๋ ๊ฒ๋ณด๋ค ์ฅ์ ์ ๊ฐ์ง๋ค. ์๋ํ๋ฉด ์ฌ๋ฌ ์ธ์ด์์์ ํ์ต์ forgetting ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฒ๋ค๊ฐ, MT0-3.7B + CoT fine-tuning์ base model mT0์ ๊ฐ์ ์ํค๊ณ , ๋ชจ๋ ์ธ์ด์์ GPT-3์ ๋ฅ๊ฐํ์๋ค.
5. Few-shot Generalization
Dataset Setup. ์ด ์น์ ์์๋, CoT fine-tuning์ C2F2์ ์ ์ฉํ๋ ๊ฒ์ด ์ด๋ป๊ฒ LM์ด ํจ๊ณผ์ ์ผ๋ก few-shot ์ธํ ์ ์ ์ํ ์ ์๊ฒ ํด์ฃผ๋์ง ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ํด ๋ฒ & ์ํ ๊ด๋ จ ๋ฐ์ดํฐ์ ์ธ LEDGAR, Case Hold, MedNLI, RubMedQA๋ฅผ ํ์ฉํ์๋ค. ๊ฐ๊ฐ์ ๋๋คํ๊ฒ ์ํ๋ง๋ 64๊ฐ์ instance๋ก ๊ตฌ์ฑ๋์ด ์๋ค. CoT Instruction Tuning๊ณผ ๋๊ฐ์ ํ๋ก์์ ๋ฅผ ์ฌ์ฉํด์ 64๊ฐ์ instruction์ ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์ค๋นํ์๋ค.
Training Setup. LM์ ํ์ต์ํค๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ FLAN-T5์ C2F2 ์ด๋ ๊ฒ 2๊ฐ์ baseline์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ๊ฐ์ full fine-tuning, CoT fine-tuning, LoRA fine-tuning, LoRA CoT fine-tuning์ ์ ์ฉํ์๋ค. ๋ํ, Claude์ ChatGPT๋ฅผ ์ฌ์ฉํด์ ICL baseline์ ํฌํจ์์ผฐ๋ค. LLM๊ณผ ํจ๊ป CoT prompting์ ํ๊ธฐ ์ํด fine-tuning์ ์ฌ์ฉํ augmented CoT ์์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ป์ด์ง CoT demonstration์ ์ฌ์ฉํ์๋ค.
Experimental Results. ์คํ ๊ฒฐ๊ณผ๋ ํ 5์ ๋ํ๋์๋ค. ๊ฒฐ๊ตญ LoRA CoT fine-tuning๊ฐ 4๊ฐ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๊ฑฐ๋๋ค.
CoT fine-tuning์ ์ฌ์ฉํ C2F2๋ FLAN-T5 direct fine-tuning์ ๋นํด ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ด๊ฒ์ CoT fine-tuning์ ์กฐํฉ์ด LM์ few-shot ์ ์์ ๋์์ ์ค๋ค๋ ์์ด๋์ด๋ฅผ ์ง์งํ๋ค.
๋ง์ง๋ง์ผ๋ก, fine-tuning method๋ ICL method์ ๋นํด ์ ๋ฐ์ ์ผ๋ก ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค. ์ด๊ฒ์ ๋ฒ & ์ํ ๋ฐ์ดํฐ์ input์ ๊ธด ๊ธธ์ด ๋๋ฌธ์ ๋ชจ๋ ๊ฐ๋ฅํ demonstration์ ์ถ๊ฐํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.14045
https://huggingface.co/datasets/kaist-ai/CoT-Collection
https://huggingface.co/kaist-ai/CoT-T5-11B