์ ๋ฒ ํฌ์คํธ์ ์ด์ด์ Chain-of-Thought$($CoT$)$์ ๊ดํ ๋ ผ๋ฌธ์ ์ฝ๊ณ ๋ฆฌ๋ทฐํด ๋ณด์๋ค. $($์ด์ ํฌ์คํธ ์ฐธ๊ณ !!$)$ LM์๊ฒ ์ธ๊ฐ์ฒ๋ผ step-by-step์ผ๋ก reasoning์ ํ ์ ์๋๋ก ๋ง๋ค์ด์ค ๊ฐ๋ ์ผ๋ก ์๋นํ ์ ๊ธฐํ์๋ค. ์ด๋ฅผ ํตํด resoning task์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง, ์์ง ๊ฐ๊ฐ์ task์ ๋ํด์ ์ฌ๋์ด ํน๋ณํ๊ฒ ์ ์ํ example์ ์ถ๊ฐ์ ์ผ๋ก ์ฃผ์ด์ผ ํ๋ค๋ ์ ์์ ์์ฌ์์ ๊ฐ๊ณ ์์๋ค. ํ ๋ง๋๋ก, ์์ง Few-shot-CoT์ ๋ถ๊ณผํ๋ค๋ ์ ์ด๋ค. ์ด๋ฌํ Few-shot-CoT๋ฅผ Zero-shot-CoT๋ก ํ๋ฐ๊ฟ์ํจ ๋ ผ๋ฌธ์ด ๋ฐ๋ก 'Large Language Models are Zero-Shot Reasoners'์ธ ๊ฒ์ด๋ค!! ์ด๋ป๊ฒ CoT๋ฅผ zero-shot learning์ผ๋ก ์ฌ์ฉํ์ ์ง ๊ถ๊ธํ์ฌ ์ด ๋ ผ๋ฌธ์ ๋ํด ์ฝ์ด๋ณด์๊ณ , ๋ ผ๋ฌธ์ ๋ํ ๋ฆฌ๋ทฐ๋ฅผ ์ง๊ธ๋ถํฐ ์์ํ๊ฒ ๋ค!!
'Large Language Models are Zero-Shot Reasoners' ๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/2205.11916
The overview of this paper
์ฌ์ ํ์ต๋ Large Language Model$($LLM$)$์ NLP ๋ถ์ผ์์ ๋ง์ด ์ฌ์ฉ๋๊ณ ์๊ณ , task-specificํ task์ ๋ํด few-shot learner๋ก์จ ํ๋ฅญํ ํผํฌ๋จผ์ค๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทผ๋์ ์๋กญ๊ฒ ์ ์๋ Chain-of-Thought$($CoT$)$๋ ๋ณต์กํ reasoning task๋ฅผ step-by-step ๋ฐฉ์์ผ๋ก ์ ๊ทผํ์ฌ ์ฌ๋ฌ task์์ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค. ์ด๋ฌํ CoT๋ few-shot learning์ ํนํ๋์ด ์๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ์ง๋ง, Zero-shot-CoT ๋ํ, ์ฌ๋ฌ task์์ ๊ธฐ์กด์ Zero-shot model๋ค์ ์ฑ๋ฅ์ ์๋ํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค! ์ฌ์ง์ด ์ด๋ ค์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ๊ฒ๋ ์๋๋ผ, ๊ทธ์ 'Let's think step-by-step$($์์ฐจ์ ์ผ๋ก ์๊ฐํด๋ณด์$)$'๋ผ๋ ๋ฌธ์ฅ์ ์์ธก ์ ์ ์ฃผ์์ ๋ฟ์ด๋ค. ์ด๋ฅผ ํตํด Few-shot์ ๊ทผ์ ํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๊ณ , ๋ง์ ๊ธฐ์กด์ Zero-shot performance๋ฅผ ๋์ด์ฐ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฐ๊ฒฌ์ ๊ทธ์ ๊ฐ๋ ฅํ Zero-shot baseline์ ๋ฐ๊ฒฌํ ๊ฒ์ ๊ทธ์น์ง ๋ง๊ณ , dataset์ fine-tuningํ๊ฑฐ๋ few-shot exampler์ ๋ง๋ค๊ธฐ ์ ์, LLM์ ๋ดํฌ๋์ด ์๋ ๊ฑฐ๋ํ zero-shot ์ง์์ ์์ธํ๊ฒ ํ์ฌํ๊ณ ๋ถ์ํ๋ ๊ฒ์ ์ค์์ฑ์ ์ผ๊นจ์์ฃผ๊ธธ ๋ฐ๋๋ค๊ณ ํ๋ค.
Table of Contents
1. Introduction
2. Background
3. Zero-Shot Chain-of-Thought
3-1. Two-stage prompting
4. Experiment
4-1. Results
1. Introduction
LM์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ ํ์ฌ์ NLP ๋ถ์ผ์์ ๋งค์ฐ ์ค์ํ ์์์ด๋ค. LLM์ ๋ํ ์ฑ๊ณต์ ๋ณดํต few-shot ๋๋ zero-shot learning์ ํตํด ์ด๋ฃจ์ด์ง๋ค. LM์ ๋ค์ํ task์ ๋ํด ๋ชจ๋ธ์ ์ ์ ์์์ ์ ์ฉ์ํค๊ฑฐ๋$($few-shot$)$, task์ ๋ํ ์ค๋ช ์ ์ค$($zero-shot$)$์ผ๋ก์จ ๋ค์ํ task๋ฅผ ํด๊ฒฐํด๋๊ฐ๋ค. LM์ conditioningํ๋ ๊ณผ์ ์ "prompting"์ด๋ผ ๋ถ๋ฅด๊ณ , prompts๋ฅผ ์๋ ํน์ ์๋์ผ๋ก ๋์์ธํ ์ง๋ NLP์์ ๋งค์ฐ ํซํ ์ฃผ์ ์ค ํ๋์ด๋ค. ๐ฅ
Chain-of-Thought$($CoT$)$๋ LLM์๊ฒ ๊ธฐ์กด์ ์ง๋ฌธ๊ณผ ๊ทธ์ ๋ํ ์ ๋ต ์์๋ฅผ ์ฃผ๊ธฐ ๋ณด๋ค๋, step-by-step reasoning ์์๋ฅผ ์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ฌํ CoT๋ ๋ชจ๋ธ์๊ฒ reasoning path๋ฅผ ์์ฑํ ์ ์๊ฒ ํด์ฃผ๊ณ , ๊ทธ์ ๋ฐ๋ผ์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ๊ฐ์ ์ฌ์ด step์ผ๋ก ๋ถํดํ ์ ์๊ฒ ํด์ค๋ค. CoT๋ฅผ ํตํด scaling size์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์์น ํจ๊ณผ๋ ๊ฐ์ ธ์ฌ ์ ์์๋ค. ๋ฐ๋ผ์, ์์ฒญ๋ ํฌ๊ธฐ๋ฅผ ์๋ํ๋ PaLM๊ณผ CoT๋ฅผ ํจ๊ป ์ฌ์ฉํ์์ ๋, ๊ธฐ์กด์ few-shot performance๋ฅผ ํจ์ฌ ์๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
CoT prompting์ ์ฑ๊ณต์, ๋ง์ task-specific prompting work๋ค์ LLM์ few-shot learning ๋ฅ๋ ฅ๋ง ์ฌ์ฉํ์๋ค. ๊ทธ๋์, ์ด ๋ ผ๋ฌธ์์๋ ๊ฐ๋จํ prompt์ธ 'Let's think step by step'์ zero-shot reasoner์ ์ถ๊ฐํ์ฌ few-shot performance์ ์คํ๋ ์ฑ๋ฅ์ ์ป๊ณ ์ ํ์๋ค. ์ด๋ ๊ฒ ๊ฐ๋จํจ์๋ ๋ถ๊ตฌํ๊ณ , Zero-shot-CoT๋ ๊ธฐ์กด์ zero-shot method๋ค์ด ์คํจํ๋ task์ ๋ํด ๊ทธ๋ด๋ฏํ reasoning path๋ฅผ ๋ง๋ค์ด ๋ด๊ณ , ์ ํํ ๋ต์ ๋์ถํด๋ด์๋ค! ๊ทธ๋ฆฌ๊ณ ์ค์ํ ๊ฒ์, Zero-shot-CoT๋ ์ด์ ์ task-specificํ prompt engineering๊ณผ๋ ๋ฌ๋ฆฌ, ๋ค์ฉ๋์ ์ด์ task-agnostic$($์ง์ ์์ด๋ ์ํ ๊ฐ๋ฅํ$)$ ํ๋ค! ์ด๋ฌํ Zero-shot-CoT๋ฅผ 3๊ฐ์ ์๋ฆฌ์ task์ 3๊ฐ์ reasoning task์ ๋ํด ์ ์ฉํด๋ณด์๋ค.
ํ์คํ, ์์ธํ๊ฒ ์์ฑ๋ step-by-step example์ ์ฌ์ฉํ Few-shot-CoT์ ๋นํด์๋ ์ฑ๋ฅ์ด ๋จ์ด์ก๋ค. ํ์ง๋ง, ์ด์ ์ zero-shot-baseline๋ค๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค! ๊ทธ๋ฆฌ๊ณ ๋ํ, scaling curve ์ธก๋ฉด์์ Few-shot๋ณด๋ค Zero-shot์ด ๋ ๋์ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค!
๋ค์์ ๊ทธ๋ฆผ 1์ ๊ธฐ์กด์ Few-shot, Zero-shot๊ณผ Few-shot-CoT, Zero-shot-CoT์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
2. Background
์ด ๋ ผ๋ฌธ์ ์ฝ๊ธฐ ์ํด ํ์ํ ๋ ๊ฐ์ง ๊ฐ๋ ์ ๊ฐ๋ตํ๊ฒ ์ง๊ณ ๋์ด๊ฐ๋ณด์: LLM์ ์ถํ๊ณผ prompting & CoT prompting
Large language models and prompting
language model$($LM$)$์ text์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์กฐ์ฌํ๋ ๋ชจ๋ธ์ด๋ค. ์ต๊ทผ์, ๋ชจ๋ธ ํฌ๊ธฐ์ ์ฆ๊ฐ์ ๋ฐ์ดํฐ์ ์ฆ๊ฐ๋ก ์ธํด, ๋๋ผ์ธ ์ ๋๋ก ๋ง์ ๋ถ์ผ์ ์ ์ฉ์ํฌ ์ ์๋, ์ฌ์ ํ์ต๋ LLM๋ฅผ ๋ง๋๋ ๊ฒ์ด ๊ฐ๋ฅํด์ก๋ค. ๊ฒ๋ค๊ฐ, ๊ธฐ์กด์ "pre-traine & fine-tune" ๋ฐฉ์์์, ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ, text ๋๋ template์ ์ฌ์ฉํ์ฌ ์ํ๋ task์ ์ ๋ต์ ์ถ๋ ฅํ๋ prompt ๋ฐฉ์์ด ์ถํํจ์ ๋ฐ๋ผ, "pre-train & prompt"์ ์๋๊ฐ ๋๋ํ๊ธฐ ์์ํ๋ค. ์กฐ๊ธ์ task example์ ์ฌ์ฉํ๋ prompt๋ฅผ few-shot prompt, template๋ง์ ์ฌ์ฉํ๋ prompt๋ฅผ zero-shot prompt๋ก ๋ถ๋ฅด๋๋ก ํ๊ฒ ๋ค.
Chain of thought prompting
์๋ฆฌ์ ๋๋ ๋ ผ๋ฆฌ์ reasoning ๋ฒค์น๋งํฌ๋ LLM์ scaling law๋ฅผ ๋ฒ์ด๋๋ ๋งค์ฐ ์ด๋ ค์ด task์๋ค. CoT prompting์ few-shot example์ step-by-step์ผ๋ก ๋ณํํจ์ผ๋ก์จ ๊ฐ๋จํ ํด๊ฒฐ์ฑ ์ ์ ์ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ก๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค!
๊ธฐ์กด์ CoT๋ ์์ผ๋ก Few-shot-CoT๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค. CoT์ ๋ํ ๋์ฑ ์์ธํ ์ค๋ช ์ ๋ค์์ ํฌ์คํธ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
3. Zero-shot Chain of Thought
๋ ผ๋ฌธ์์๋ CoT reasoning์ ์ํด zero-shot template ๊ธฐ๋ฐ์ prompting์ ์ฌ์ฉํ๋, Zero-shot-CoT๋ฅผ ์ ์ํ์๋ค. ์ด๋ ๊ธฐ์กด์ CoT์ ๋ฌ๋ฆฌ, step-by-step few-shot example์ ์ ๊ณตํ ํ์๊ฐ ์๊ณ , ์ด์ ์ template prompting๊ณผ ๋ฌ๋ฆฌ ํ๋์ template์ ์ฌ์ฉํ์ฌ multi-hop reasoning์ ๋์ด๋ด์๊ณ , task-agnostic ํ์๋ค. ํต์ฌ ์์ด๋์ด๋ ๊ทธ๋ฆผ 1์์ ์ธ๊ธํ๋ ๊ฒ์ฒ๋ผ ๊ฐ๋จํ๋ฐ, step-by-step reasoning์ ๋์ด๋ด๊ธฐ ์ํด, Let's think step by step์ ์ถ๊ฐํ๊ฑฐ๋, ์ด์ ๋น์ทํ ๋ฌธ์ฅ์ ์ถ๊ฐํ๋ ๊ฒ์ด๋ค!
3.1 Two-stage prompting
Zero-shot-CoT๋ ๊ฐ๋ ์ ์ผ๋ก ๊ฐ๋จํ ๋ฐ๋ฉด์, ๋ค์์ ๊ทธ๋ฆผ 2์ฒ๋ผ reasoning๊ณผ answering์ ์ํด ๋ ๋ฒ์ prompting์ ์ฌ์ฉํ๋ค. ๋ฐ๋ฉด์, zero-shot-baseline์ $($๊ทธ๋ฆผ 1์ ์ผ์ชฝ ๋ฐ ๋ถ๋ถ ์ฐธ๊ณ $)$ ์๋ง์ ํ์์ ๋ต์ ๋์ถํ๊ธฐ ์ํด ์์์ "The answer is" ๋ผ๋ prompting์ ์ด๋ฏธ ์ฌ์ฉํ์๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ์ด๋ CoT์ Few-shot prompting์ answer-extraction prompting์ ํผํ๊ธฐ ์ํด few-shot example์ ํน์ ํ์์ผ๋ก ๋์์ธํด์ผ ํ๋ค. $($๊ทธ๋ฆผ 1์ ์ค๋ฅธ์ชฝ ์์ ์ผ์ชฝ ์๋ฅผ ์ฐธ๊ณ $)$. ์์ฝํ๋ฉด, Few-shot-CoT๋ ๊ฐ๊ฐ์ task์ ๋ํ ์์ธํ answer ํ์๊ณผ ํจ๊ป ์ฌ๋์ด ์กฐ์ฌ์ค๋ angineeringํ ์ ์ ์์ prompt example์ ํ์๋ก ํ์ง๋ง, Zero-shot-CoT๋ ์ ์ ์์ engineering์ ํ์๋ก ํ๋ ๋ฐ๋ฉด์, prompting์ ๋ ๋ฒ ํ์๋ก ํ๋ค.
์ฒซ ๋ฒ์งธ prompt: ์ถ๋ฆฌ ์ถ์ถ
์ด ๋จ๊ณ์์๋, ์ ๋ ฅ ์ง๋ฌธ์ธ $\textbf{x}$๋ฅผ ๊ฐ๋จํ ํ ํ๋ฆฟ "Q: [X], A: [T]"๋ฅผ ์ฌ์ฉํ์ฌ, prompt $\textbf{x}^{'}$ ์กฐ์ ํ๋ค. ์ฌ๊ธฐ์, [X]๋ $\textbf{x}$์ ๋ํ ์ ๋ ฅ ์ฌ๋กฏ์ด๊ณ , [T]๋ hand-crafted trigger ๋ฌธ์ฅ์ ๋ํ ์ฌ๋กฏ $\textbf{t}$์ด๋ค. $\textbf{t}$๋ ์ง๋ฌธ $\textbf{x}$์ ๋๋ตํ๊ธฐ ์ํ chain of thought๋ฅผ ๋์ถํด๋ผ ์ ์๋ค. ์๋ฅผ ๋ค์ด, "Let's think step by step"์ trigger sentence๋ก ์ฌ์ฉํ๋ฉด, prompt $\textbf{x}^{'}$๋ "Q: [X], A: Let's think step by step."์ด ๋ ๊ฒ์ด๋ค. ๊ทธ ๋ค์์, promped text $\textbf{x}^{'}$๋ LM์ ์ฃผ์ด์ง๊ฒ ๋๊ณ , ํ์์ ๋ฌธ์ฅ $\textbf{z}$๋ฅผ ์์ฑํ๋ค.
๋ ๋ฒ์งธ prompt: ๋๋ต ์ถ์ถ
๋ ๋ฒ์งธ ๋จ๊ณ์์๋, ์์ฑ๋ ๋ฌธ์ฅ์ธ $\textbf{z}$์ prompted sentence $\textbf{x}^{'}$์ ์ฌ์ฉํ์ฌ, LM๋ก๋ถํฐ ์ต์ข ๋๋ต์ ์ถ์ถํด๋ธ๋ค. ์ด 3๊ฐ์ ์์๋ฅผ "[X'] [Z] [A]"๋ก ํฉ์ณค๋ค. ์ฌ๊ธฐ์, [X']๋ ์ฒซ ๋ฒ์งธ prompt์ $\textbf{x}^{'}$์ด๊ณ , [Z]๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์ ์์ฑ๋ ๋ฌธ์ฅ $\textbf{z}$์ด๊ณ , [A]๋ ๋๋ต์ ์ถ์ถํ๊ธฐ ์ํ trigger sentence์ด๋ค. ์ด ๋จ๊ณ์์์ prompt๋ self-augmented ๋ฐฉ์์ผ๋ก ์งํ๋๋๋ฐ, ์๋ํ๋ฉด prompt๊ฐ ๋๊ฐ์ LM๋ก๋ถํฐ ์์ฑ๋ ๋ฌธ์ฅ $\textbf{z}$๋ฅผ ํฌํจํ๊ธฐ ๋๋ฌธ์ด๋ค. ์คํ์์๋, ๋๋ต ํ์์ ๋ฐ๋ผ์ ์ด์ง์ฉ ๋ค๋ฅธ trigger์ ์ฌ์ฉํ์๋ค.
4. Experiment
์คํ์ ๊ดํด์๋ ์์ธํ๊ฒ ๋ค๋ฃจ์ง๋ ์๊ณ , ๊ฐ๊ฐ์ dataset์ ๋ํด ๋ชจ๋ธ์ด ์ด๋ ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ๊ทธ ์ฑ๋ฅ์ ๋ํ ๋ถ์๊ณผ ๋ ํนํ๋ ์ ์ ๋ํด์ ์ง๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ๋ค.
Datasets
์คํ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ์ด 6๊ฐ์ง์ธ๋ฐ, 3๊ฐ์ง๋ ๊ธฐ๋ณธ์ ์ธ ์๋ฆฌ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ์ดํฐ์ ์ด๊ณ , ๋ค๋ฅธ 3๊ฐ์ง๋ ์ข ๋ ์ต๊ทผ์ ๋ง๋ค์ด์ง ๋ฐ์ดํฐ์ ์ผ๋ก ํ ๊ฐ์ง๋ ๊ฐ๋จํ ์๋ฆฌ๋ ฅ์ ํ๊ฐํ๊ณ , ๋ค๋ฅธ ๋ ๊ฐ์ง๋ ์กฐ๊ธ ์ด๋ ค์ด, ์ฌ๋ฌ resoning step์ ์๊ตฌํ๋ ๋ฌธ ๋ฐ์ดํฐ์ ์ด๋ค.
Models & Baselines
๋ชจ๋ธ์ 17๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ์๋๋ฐ, ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
Answer cleansing
๋ชจ๋ธ์ด answer extraction์ ํตํด text๋ฅผ ์ถ๋ ฅํ๋ฉด, ๊ทธ ์ค์์ ๊ฐ์ฅ ์ฒซ ๋ฒ์งธ๋ก ๋ง์กฑํ๋ ๋๋ต ํ์์ ์ถ์ถํ๋ค. ์๋ฅผ ๋ค์ด, prompting ์ถ๋ ฅ์ด "์๋ง๋ 375๋ 376"์ผ ๋, ์ฒซ ๋ฒ์งธ ์ซ์์ธ "375"๋ฅผ ๋ชจ๋ธ์ ์์ธก์ผ๋ก ์ค์ ํ๋ค.
4-1. Results
Zero-shot-CoT vs. Zero-shot
๋ค์์ ํ 1์ Zero-shot-CoT์ ์ ํ๋์ ๊ธฐ์กด์ zero-shot prompting์ ์ ํ๋๋ฅผ ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด ์์ฝํ ๊ฒ์ด๋ค. Zero-shot-CoT๋ 6๊ฐ ์ค 4๊ฐ์ ๋ฐ์ดํฐ์ ์์ ์๋นํ ์๋ํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์๋ฅผ ๋ค์ด, MultiArith์ GSM8K ๋ฐ์ดํฐ์ ์์ ์์ฒญ๋๊ฒ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ SingleEq์ AddSub์์๋ ์กฐ๊ธ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋๋ฐ ์ด๋ multi-step reasoning์ ์๊ตฌํ์ง ์๋ task์๊ธฐ ๋๋ฌธ์ด๋ค.
Comparison with other baselines
๋ค์์ ํ 2๋ ๋ ๊ฐ์ ์๋ฆฌ reasoning ๋ฒค์น๋งํฌ์ ๋ํด Zero-shot-CoT์ baseline์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ธฐ์กด์ prompting๊ณผ Zero-shot-CoT ๊ฐ์ multi-step reasoning์ ์๊ตฌํ์ง ์๋ task์ ๋ํด์ ์์ฒญ๋ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ํ์ง๋ง, Zero-shot-CoT๋ Few-shot-CoT์ ๋นํด์๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
Does model size matter for zero-shot reasoning?
๋ค์์ ๊ทธ๋ฆผ 3์ ๋ค์ํ LM์ MultiArith์ GSM8K์ ๋ํ ์ฑ๋ฅ์ ๋น๊ตํ๊ณ ์๋ค. CoT๊ฐ ์์ ๋์๋, ์ฑ๋ฅ์ ๋ณํ๊ฐ ์๊ฑฐ๋, ์์ฃผ ๋๋ฆฌ๊ฒ ์์นํ๊ณ ์๋ ๊ฒ์ ์ ์ ์๋ค. ํ ๋ง๋๋ก, ์ปค๋ธ๊ฐ ํํํ๋ค. ๋ฐ๋๋ก, CoT์ ํจ๊ปํ ๋๋, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์ ๋ฐ๋ผ, ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ๊ฒ ์์นํ๋ ๊ฒ์ ์ ์ ์๋ค.
Error Analysis
Zero-shot-CoT์ ํน์ฑ์ ๋์ฑ ์ ํ์ ํ๊ธฐ ์ํด, Zero-shot-CoT์ Instruct GPT-3๋ก๋ถํฐ ์์ฑ๋๋ example์ ๋๋คํ๊ฒ ์ ํํ์ฌ ์กฐ์ฌํ์๋ค. ์ด๋ฌํ ๊ณผ์ ์ ํตํด ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
- commonsense reasoning: Zero-shot-CoT๋ ์ ๋ต์ ํ๋ฆฌ๊ธฐ๋ ํ์ง๋ง, ์ ์ฐํ๊ณ ํฉ๋ฆฌ์ ์ธ chain of thought๋ฅผ ๋ณด์ฌ์คฌ์. ๋ต์ ํ๋๋ก ์ขํ๊ธฐ ์ด๋ ค์ธ ๋๋ ์ฌ๋ฌ ๊ฐ์ ๋ต์ ๋ด๋๊ธฐ๋ ํจ.
- arithmetic reasoning: Zero-shot๊ณผ Few-shot์ด ์ ํ ๋ค๋ฅธ error ํจํด์ ๋ณด์. Zero-shot์ ๋ต์ ๊ฐ๊ฒ๋ ํ์๋ ๋ถํ์ํ step์ ๊ฐ์ก๊ณ , ์ด๋จ ๋๋ reasoning์ด ์๋ ์ง๋ฌธ์ paraphrasing ํ๊ธฐ๋ ํ์์. Few-shot์ 3๊ฒน์ ๊ณ์ฐ์๋ chain of thought๋ฅผ ์์ฑํ ์ ์์์. ex) (3 + 2) * 4
์คํ์๋ ๋ ๋ง์ ๋ด์ฉ๋ค์ด ์กด์ฌํ์ง๋ง, ์ฌ๊ธฐ์ ๋ง์ณ๋ณด๋๋ก ํ๊ฒ ๋ค. ๋์ฑ ์์ธํ ๋ด์ฉ์ ์๊ณ ์ถ๋ค๋ฉด ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
์ถ์ฒ
https://arxiv.org/abs/2205.11916