The overview of this paper
์ด๋ป๊ฒ <100B LM์ step-by-step reasoning์ ์ฃผ์ ์ํฌ ์ ์์๊น? ์ด ์ง๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ 1,060๊ฐ์ task์ ๊ฑธ์ณ์ 1.88M ๊ฐ์ CoT ์์๋ฅผ ๊ฐ๋ ์๋ก์ด instruction-tuning ๋ฐ์ดํฐ์ ์ธ CoT Collection์ ์๊ฐํ์๋ค.
๋ ผ๋ฌธ์์๋ FLAN-T5๋ฅผ CoT Collection๊ณผ ํจ๊ป ๊ณ์์ ์ผ๋ก fine-tuning ํ๋ ๊ฒ์ด unseen task์์ ๋ ๋์ CoT๋ฅผ ์ํํ ์ ์๊ฒ ๋ง๋ค์ด ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. The CoT Collection
3. Zero-shot Generalization
4. Few-shot Generalization
1. Introduction
CoT๋ ๋ชจ๋ธ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํฅ์์์ผ ์ฃผ์ง๋ง, ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ ๊ฐ์ง๋ค.
- 100B ์ด์์ LLM์ ํ์๋ก ํจ
- smaller model์์๋ ๋๊ฐ์ ์ด์ ์ ๋ณด์ฌ์ฃผ๋์ง ์ ์ฆ๋์ง ์์
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ํ ๋ง์ ์๋๋ค์ด ์์์ง๋ง, ๊ด๋ฒ์ํ task์ ๋ํ CoT๊ฐ ์์ง ์ค๋น๋์ด ์์ง ์๋ค. ๊ทธ๋์ ์ด๋ฌํ ๊ฐญ์ ์ค์ด๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ FLAN Collection์ผ๋ก๋ถํฐ ์ถ์ถ๋ 1,060๊ฐ์ task์ ๊ฑธ์น 1.88M ๊ฐ์ CoT ์์๋ฅผ ๊ฐ์ง๋ instruction-tuning ๋ฐ์ดํฐ์ ์ธ CoT Collection์ ์ ์ํ์๋ค.
์ด CoT Collection์์๋ ๊ฐ instance๊ฐ input instance์ ์ถ๊ฐ๋๋ instruction, ground-truth output, CoT ์์๋ก ๊ตฌ์ฑ๋์ด ์๋ค. CoT fine-tuning์ instruction tuning์ ์ฌ์ฉํจ์ผ๋ก์จ smaller LM์๊ฒ ๊ฐ์ ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฃผ๊ณ ์ ํ์๋ค.
๋ ผ๋ฌธ์ ๋ชจ๋ธ์ธ C2F2๋ CoT Collection์ ์ฌ์ฉํ์ฌ FLAN-T5๋ฅผ ๊ณ์์ ์ผ๋ก fine-tune ํจ์ผ๋ก์จ ์ป์ด์ก๋ค. ์ด ๋ชจ๋ธ์ unseen task์ ๋ํด CoT prompting์ ์ํํ๊ธฐ ์ํ zero-shot ๋ฅ๋ ฅ์ ์๋นํ ๊ฐ์ ์ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ, CoT Collection์ ์ฌ์ฉํด instruction-tuned ๋ชจ๋ธ์ ๊ณ์์ ์ผ๋ก fine-tune ํ๋ ๊ฒ์ ์์ ๊ท๋ชจ์ ๋ฐ์ดํฐ & multilingual ๋ฐ์ดํฐ์์๋ ํจ๊ณผ์ ์ด์๋ค. zero-shot ์ฑ๋ฅ์ ์ถ๊ฐ์ ์ผ๋ก ํฅ์์ด ๊ด์ฐฐ๋จ์ ๋ฐ๋ผ C2F2๋ few-shot learning์์ ๋ ๋์ base model๋ก ์ฌ๊ฒจ์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. C2F2๋ HuggingFace์ ๊ณต๊ฐ๋์ด ์๊ณ , ์๋ ์ถ์ฒ์ ๋งํฌ๋ฅผ ๋จ๊ฒจ๋๋๋ก ํ๊ฒ ๋ค.
C2F2์ ์คํ ๊ฒฐ๊ณผ๋ CoT fine-tuning๊ณผ instruction tuning ๊ฐ์ ์๋์ง๊ฐ ์ ์ฌ์ ์ผ๋ก smaller model์ ๊ฐ์ ์ ๋ณ์ ์ ์๋ค๋ ๊ฒ์ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ zero-shot & few-shot learning ์ธํ ์์ smaller model์ด ์ด์ ์ ์ป์ ์ ์์๋ค๋ ๊ฒ์ ๋ํ๋ธ๋ค. ํนํ, zero-shot & few-shot learning์ ๋ฌธ๋งฅ์์ ๋ ผ๋ฌธ์ ๋ถ์์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ํ๋ถํ supervision์ ์ถ์ถํ๋ ๊ฐ๋จํ ๋ ์ํผ์ CoT fine-tuning์ ํตํด CoT ๋ฅ๋ ฅ์ ์ผ๊ธฐํ๋ ๊ฒ์ ๊ธฐ์กด LM์ ์ถ๊ฐ์ ์ผ๋ก ๊ฐ์ ์ํฌ ์ ์์ ๊ฒ์ด๋ค.
2. The CoT Collection
CoT Collection์ 1,060๊ฐ์ NLP task์ ๊ฑธ์ณ์ ์ป์ด์ง 1.88M ๊ฐ์ CoT ์์๋ฅผ ํฌํจํ๋ instruction-tuning ๋ฐ์ดํฐ์ ์ด๋ค. CoT Collection์ HuggingFace์ ๋ชจ๋ ๊ณต๊ฐ๋์ด ์์ผ๋ ๊ด์ฌ์ด ์๋ค๋ฉด ์ฐพ์๋ณด๊ธธ ๋ฐ๋๋ค(์๋ ์ถ์ฒ๋ฅผ ํ์ธํ๊ธธ ๋ฐ๋). ๊ทธ๋ฆผ 1์ CoT Collection์ด ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์ด ์๋์ง๋ฅผ ๋ฌ์ฌํ๊ณ ์๋ค.
2-1. CoT Rationale Augmentation
input $X = [I, z]$๊ฐ ์ฃผ์ด์ง๋ฉด LLM์ ์ฌ์ฉํ ICL์ ์ ์ฉํจ์ผ๋ก์จ CoT ์์ $r$์ ์ป๊ฒ ๋๋ค. ์ฌ๊ธฐ์ $I$๋ instruction์ด๊ณ , $z$๋ answer $y$๊ฐ ํจ๊ป ์๋ instance์ด๋ค. ์ด๊ฒ์ ์ด์ ์ LLM์ ์ฌ์ฉํด ์๋ก์ด instance๋ฅผ ์์ฑํ๋๋ฐ ์ฃผ๋ก ์ง์คํ๋ ์ฐ๊ตฌ๋ค(Self-Consistency, Unnatural-Instructions ๋ฑ)๊ณผ ๋ค๋ฅด๋ค.
Source Dataset Selection. CoT ์์ ์ถ์ถ์ ์ํ ์์ค ๋ฐ์ดํฐ์ ์ผ๋ก FLAN Collection, Super-NI, FLAN์ ์ฌ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ์ ๋ค๋ก๋ถํฐ 1,060๊ฐ์ task๋ฅผ ์ ํํ๊ณ , ๋ค์์ ๊ธฐ์ค์ ํตํด ์ขํ๋ค:
- multilingual dataset์ ์ ์ธํจ. T5๊ฐ ์ฃผ๋ก ์์ด ๋ฐ์ดํฐ์ ์๋ง ์ง์คํ๊ธฐ ๋๋ฌธ์.
- long-form output์ ๊ฐ์ง๋ ์์ฑ task์ ์๋ธ์ ์ ์ ์ธํจ.
- publicly availableํ์ง ์์ ๋ฐ์ดํฐ์ ์ ์ ์ธํจ.
- input & output์ด ์๋ก ์๊ด ์๋ ๋ฐ์ดํฐ์ ์ ์ ์ธํจ.
- data overlap์ด ์์ผ๋ฉด data overlap์ด ์๋ ๋ฐ์ดํฐ์ ์ค ํ๋๋ง ์ฌ์ฉํ๊ณ , ๋๋จธ์ง๋ ๋ชจ๋ ์ ์ธํจ.
- LLM์ ์ํด ์์ฑ๋ CoT ์์๋ ๋ช ๊ฐ์ task(sentiment analysis, sentence completion, coreference resolution, word disambiguations)์์ uninformative ํ๊ณ , ๋งค์ฐ ์งง์ ๊ฒฝํฅ์ด ์์. ๊ทธ๋์ ์ด๋ฌํ ๋ฐ์ดํฐ์ ๋ค์ ์ ์ธํจ.
Prompt Creation. LLM์ ์ฌ์ฉํด ICL์ ์งํํ๊ธฐ ์ํด ๊ฐ task ๋น demonstration์ ์ค๋นํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ง๊ด์ ์ด๋ค. ํ์ง๋ง ๋ ผ๋ฌธ์์๋ ์ข ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๋น์ทํ task๋ผ๋ฆฌ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด์ ๊ทธ๋ฃน ๋น 6~8๊ฐ์ demonstration์ ๋ง๋ค์๋ค.
๊ตฌ์ฒด์ ์ผ๋ก FLAN Collection์ผ๋ก๋ถํฐ ์ํ๋ง๋ ์ฌ๋ฌ instance๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ ์ฌ๋์ CoT ์์๋ฅผ ์์ฑํ๊ณ , ๋๋จธ์ง ํ ์ฌ๋์ A/B testing์ ์ค์ํ์ฌ ๋ ์ค์ ๋ ๋์ CoT ์์๋ฅผ ์ ํํ๋ค. ์ด ํ๋ก์ธ์ค๋ฅผ ํตํด 26๊ฐ์ task์ ๊ฑธ์ณ์ ์ด 135๊ฐ์ CoT ์์๋ฅผ ์์ฑํ์๋ค.
CoT Rationale Augmentation. augmentation process์ ์ฃผ๋ ๋ชฉํ๋ ์ผ๊ด๋๋ CoT ์์๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ OpenAI์ Codex ๋ชจ๋ธ์ ํ์ฉํ์๋ค. ์์์ ์ผ๋ก ๋ํ๋ผ ๋, $(X_{i}^{t}, y_{i}^{t})$๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ชฉํ๋ ํด๋นํ๋ CoT ์์ $r_{i}^{t}$๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์ฌ์ ์คํ ์ค์ demonstration์์ ๋ผ๋ฒจ์ ์์ ์์ ๋๋ ๊ฒ์ด ์ข์ ํ๋ฆฌํฐ์ ์์๋ฅผ ๋ง๋๋๋ฐ ์ค์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ฒ ๋ ์ด์ ๋ LLM์ด task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ์๋ฅผ ์ค์ฌ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ์๋ค.
Filtering. ์ฌ๋ฌ CoT ์์๋ฅผ ์์ฑํ ํ์, high-quality CoT ์์๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ๋ค์์ ๊ธฐ์ค์ ์ ์ฉํด ํํฐ๋ง์ ์ ์ฉํ์๋ค.
- ์ต์ ํ ๋ฒ๋ ground-truth answer๋ฅผ ํฌํจํ์ง ์๋ CoT ์์๋ ์ ์ธํจ.
- 256 ์ด์์ ํ ํฐ์ ๊ฐ์ง๋ CoT ์์๋ ์ ์ธํจ.
- ์ด์ ์ ์ป์ CoT ์์์ ๋์ผํ CoT ์์๋ ์ ์ธํจ.
2-2. Analysis of CoT Collections
Quality of Rationales. CoT Collection์ ํ๋ฆฌํฐ๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ROSCOE๋ฅผ ์ฌ์ฉํด ํ๊ฐํ ๊ฒฐ๊ณผ CoT Collection์ human-authored CoT ์์์ ๋น๊ตํด์ ์ ๋ขฐ๋ ์๊ณ , ๋ฐ๋ณต์ ์ด์ง ์๊ณ , ์ ๋ณด์ ์ด๊ณ ๋ ผ๋ฆฌ์ ์ธ CoT ์์๋ฅผ ํฌํจํ๊ณ ์์๋ค. 13๊ฐ์ ROSCOE score๊ฐ ํ 1์ ๋ํ๋์๋ค.
Diversity of Rationales. FLAN-T5์ ์ฌ์ฉ๋ 9๊ฐ์ CoT ๋ฐ์ดํฐ์ ์ 'answer question'๊ณผ 'consider following'์ ํฐ ๋น์ค์ ๋ ๋ฐ๋ฉด CoT Collection์ ๋ค์ํ ํ ์คํธ ํ์์ ํฌํจํ๋ ๊ฒ์ ์ ์ ์๋ค(๊ทธ๋ฆผ 2).
3. Zero-shot Generalization
CoT Collection์์ CoT fine-tuning์ ํ๋ ๊ฒ์ด ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก unseen task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ LM์ ๋ฅ๋ ฅ์ ๊ฐ์ ์ํค๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ค์์ ๊ทธ๋ฆผ 3์ C2F2์ ์๋ ๋ฐฉ์์ ๋ณด์ฌ์ค๋ค.
Experiment #1: FLAN-T5 Setting. FLAN-T5๋ฅผ CoT Collection์ ์ฌ์ฉํด ๊ณ์์ ์ผ๋ก fine-tune ํด์ C2F2๋ฅผ ์ป์๋ค. FLAN-T5 ์ธ์๋ T5-LM, T0, Tk-Instruct, GPT-3 ๊ฐ์ ์๋ก ๋ค๋ฅธ baseline๊ณผ ๋น๊ตํ์๋ค. ๊ฒ๋ค๊ฐ, CoT fine-tuning์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ํต์ ์ธ instruction tuning์ ๋นํด ๋ ๋ฐ์ดํฐ ํจ์จ์ ์ธ์ง ํ์ธํ๊ธฐ ์ํด T5-LM์ CoT Collection์ผ๋ก ํ์ต์์ผ ๋ดค๋ค. ํ ๊ฐ์ง ์์๋ฌ์ผ ํ ์ ์ FLAN Collection์ CoT Collection๋ณด๋ค 7.98๋ฐฐ ๋ ๋ง์ ์์ 15M ๊ฐ์ instance๋ฅผ ํฌํจํ๊ณ ์๋ค๋ ๊ฒ์ด๋ค.
๊ฒฐ๊ณผ๊ฐ ํ 2์ ๋ณด์ด๊ณ ์๋ค. FLAN-T5๋ฅผ CoT Collection์์ ๊ณ์์ ์ผ๋ก ํ์ต์์ผ์ ์ป์ด์ง C2F2๋ CoT ํ๊ฐ์์ ๊ธฐ์กด FLAN-T5๋ณด๋ค ๊ฐ์ ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๋๋๊ฒ๋ CoT Collection์ด ์ด๋ ํ direct instruction data๋ฅผ ํฌํจํ์ง ์์๋ ๋ง์ด๋ค. ์ด๊ฒ์ ์ถ๊ฐ์ CoT instruction ๋ฐ์ดํฐ์ ํจ๊ป instruction-tuned ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ด LM์ผ๋ก ํ์ฌ๊ธ unseen task์ ์ ์ํ๊ฒ ํ๋ค๋ ์ฃผ์ฅ์ ์ง์งํ๋ค.
๋ฐ์ดํฐ ํจ์จ์ฑ ์ธก๋ฉด์์ T5 + CoT fine-tuning์ FLAN-T5๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ํ, T5-3B + CoT fine-tuning์ 4๋ฐฐ ํฐ T0-11B & TK-Instruct-11B๋ direct & CoT ํ๊ฐ์์ ๋ฅ๊ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ CoT fine-tuning์ด direct instruction tuning์ ๋นํด ์ ์ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ ธ๋ค.
Experiment #2: T0 Setting. CoT Collection์ ์ฌ์ฉํ CoT fine-tuning์ด ์ ์ ์์ task์์๋ ํจ๊ณผ์ ์ธ์ง test ํ๊ธฐ ์ํด CoT Collection์ P3 ์๋ธ์ ์ ์ฌ์ฉํด์ T5 & T0 ๋ชจ๋ธ์ ์ ์ฉํ์๋ค. T0 ์ธ์๋ T5-LM, RoE, KiC, Flipped๋ ํฌํจ์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ํ oracle ๊ฐ์ผ๋ก๋ T0-11B & GPT-3์ ์ฌ์ฉํ์๋ค.
ํ 3์ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋์๋ค. T0-3B + CoT fine-tuning์ ์ถ๊ฐ์ ์ผ๋ก T0-3B๋ฅผ ๊ฐ์ ์์ผฐ๋ค. ์ด๊ฒ์ instruction-tuned ๋ชจ๋ธ์ ์ถ๊ฐ์ CoT instruction data์ ํจ๊ป ๊ณ์์ ์ผ๋ก ํ์ต์ํค๋ ๊ฒ์ LM์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํด๊ธ์์ผ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๋์ฑ ๋๋๊ฒ๋, T5-3B + CoT fine-tuning์ T0์ ๋นํด ์ค์ง 3.22% ์ ๋์ training data๋ฅผ ์ฌ์ฉํด์ T0-3B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. direct instructtion-tuned ๋ชจ๋ธ์ธ T0-3B์ ๋น๊ตํด์ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์์๋ฅผ ์์ฑํ๊ธฐ ์ํด ํ์ตํ๋ ๊ฒ์ 3B LM๋ ๋์ฑ ํจ์จ์ ์ผ๋ก ์ผ๋ฐํํ ์ ์๊ฒ ํด ์ค๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค.
Experiment #3: Multilingual Setting. CoT fine-tuning์ด multilingual ์ธํ ์์๋ ํจ๊ณผ์ ์ธ์ง ํ ์คํธํ๊ธฐ ์ํด LMSI์ ์คํ ์ธํ ์ ์ฌ์ฉํด MGSM ๋ฒค์น๋งํฌ๋ฅผ test bed๋ก ์ฌ์ฉํด์ ํ๊ฐํ์๋ค. mT0์ ํ์ต์ํค๊ธฐ ์ํด ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ๋น๊ตํด์ single ํ๊น ์ธ์ด์ ๋ํ CoT instruction ๋ฐ์ดํฐ๋ฅผ 0.001%๋ง ์ฌ์ฉํ์๋ค. ํ๊น ์ธ์ด์ ๋ํ instruction ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํด ChatGPT๋ฅผ ์ฌ์ฉํ์ฌ ๋ฒ์ญํ์๋ค.
๊ฒฐ๊ณผ๋ ํ 4์ ๋ํ๋์๋ค. 5๊ฐ์ ์๋ก ๋ค๋ฅธ ์ธ์ด์ ๊ฑธ์ณ์ MT5-3.7B + CoT fine-tuning์ MT0-3.7B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํนํ ๋ ์ ์ ํ๊ตญ์ด, ์ผ๋ณธ์ด, ์ค๊ตญ์ด ๊ฐ์ ์ธ์ด์์ CoT instruction data์ ํจ๊ป ์ฑ๊ธ ํ๊น ์ธ์ด์์ ํ์ตํ๋ ๊ฒ์ ์ฌ๋ฌ ์ธ์ด์ ํจ๊ป ํ์ตํ๋ ๊ฒ๋ณด๋ค ์ฅ์ ์ ๊ฐ์ง๋ค. ์๋ํ๋ฉด ์ฌ๋ฌ ์ธ์ด์์์ ํ์ต์ forgetting ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฒ๋ค๊ฐ, MT0-3.7B + CoT fine-tuning์ base model mT0์ ๊ฐ์ ์ํค๊ณ , ๋ชจ๋ ์ธ์ด์์ GPT-3์ ๋ฅ๊ฐํ์๋ค.
5. Few-shot Generalization
Dataset Setup. ์ด ์น์ ์์๋, CoT fine-tuning์ C2F2์ ์ ์ฉํ๋ ๊ฒ์ด ์ด๋ป๊ฒ LM์ด ํจ๊ณผ์ ์ผ๋ก few-shot ์ธํ ์ ์ ์ํ ์ ์๊ฒ ํด์ฃผ๋์ง ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ํด ๋ฒ & ์ํ ๊ด๋ จ ๋ฐ์ดํฐ์ ์ธ LEDGAR, Case Hold, MedNLI, RubMedQA๋ฅผ ํ์ฉํ์๋ค. ๊ฐ๊ฐ์ ๋๋คํ๊ฒ ์ํ๋ง๋ 64๊ฐ์ instance๋ก ๊ตฌ์ฑ๋์ด ์๋ค. CoT Instruction Tuning๊ณผ ๋๊ฐ์ ํ๋ก์์ ๋ฅผ ์ฌ์ฉํด์ 64๊ฐ์ instruction์ ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์ค๋นํ์๋ค.
Training Setup. LM์ ํ์ต์ํค๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ FLAN-T5์ C2F2 ์ด๋ ๊ฒ 2๊ฐ์ baseline์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ๊ฐ์ full fine-tuning, CoT fine-tuning, LoRA fine-tuning, LoRA CoT fine-tuning์ ์ ์ฉํ์๋ค. ๋ํ, Claude์ ChatGPT๋ฅผ ์ฌ์ฉํด์ ICL baseline์ ํฌํจ์์ผฐ๋ค. LLM๊ณผ ํจ๊ป CoT prompting์ ํ๊ธฐ ์ํด fine-tuning์ ์ฌ์ฉํ augmented CoT ์์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ป์ด์ง CoT demonstration์ ์ฌ์ฉํ์๋ค.
Experimental Results. ์คํ ๊ฒฐ๊ณผ๋ ํ 5์ ๋ํ๋์๋ค. ๊ฒฐ๊ตญ LoRA CoT fine-tuning๊ฐ 4๊ฐ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๊ฑฐ๋๋ค.
CoT fine-tuning์ ์ฌ์ฉํ C2F2๋ FLAN-T5 direct fine-tuning์ ๋นํด ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์ด๊ฒ์ CoT fine-tuning์ ์กฐํฉ์ด LM์ few-shot ์ ์์ ๋์์ ์ค๋ค๋ ์์ด๋์ด๋ฅผ ์ง์งํ๋ค.
๋ง์ง๋ง์ผ๋ก, fine-tuning method๋ ICL method์ ๋นํด ์ ๋ฐ์ ์ผ๋ก ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค. ์ด๊ฒ์ ๋ฒ & ์ํ ๋ฐ์ดํฐ์ input์ ๊ธด ๊ธธ์ด ๋๋ฌธ์ ๋ชจ๋ ๊ฐ๋ฅํ demonstration์ ์ถ๊ฐํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.14045
The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning
Large Language Models (LLMs) have shown enhanced capabilities of solving novel tasks by reasoning step-by-step known as Chain-of-Thought (CoT) reasoning; how can we instill the same capability of reasoning step-by-step on unseen tasks into LMs that possess
arxiv.org
https://huggingface.co/datasets/kaist-ai/CoT-Collection
kaist-ai/CoT-Collection · Datasets at Hugging Face
"Which entity is this text about? Richard "Red" Skelton (July 18, 1913 - September 17, 1997) was an American comedy entertainer. He was best known for his national radio and television acts between 1937 and 1971, and as host of the television program The R
huggingface.co
https://huggingface.co/kaist-ai/CoT-T5-11B
kaist-ai/CoT-T5-11B · Hugging Face
TL;DR CoT-T5 is a language model using Flan-T5 as a base model, and CoT fine-tuned on 1.84 million rationales across 1,060 tasks from the CoT Collection. Since it was CoT fine-tuned on a large amount of rationales, it shows superior performance with CoT co
huggingface.co