์ด ํฌ์คํธ๋ PaLM์ ๋ฆฌ๋ทฐํ๋ฉด์ PaLM์ ์ฌ์ฉ๋์๋ ๊ฐ๋ ์ธ Chain-of-Thought์ ๋ํด ๊ด์ฌ์ด ์๊ฒจ์ ์์ฑ๋์๋ค. Chain-of-Thought๋ ์๋กญ๊ฒ ์๊ฒจ๋ ๊ฐ๋ ์ด ์๋๋ผ, ์๋๋ถํฐ ์กด์ฌํ๋ ๊ฐ๋ ์ธ๋ฐ, ์ฝ๊ฒ ๋งํ๋ฉด ์ฌ๋์ ์๊ฐ ๊ณผ์ ์ ์๊ฐํ๋ฉด ๋๋ค. ์๋ฅผ ๋ค์ด, ์ํ ๋ฌธ์ ๋ฅผ ํ ๋, ๋ฌธ์ ๋ฅผ ๋ณด๊ณ ๋ชจ๋ ๊ณ์ฐ์ ํ ๋ฒ์ ์ซ๋ผ๋ฝ!!.. ํ๋ฉด ์ฌ๋์ด ์๋๊ฒ ์ฃ ..! ๊ทธ๋ ์ต๋๋ค, ์ฌ๋์ ์ํ ๋ฌธ์ ๋ฅผ ๋ง๋ฅ๋จ๋ฆฌ๋ฉด, ๋ฌธ์ ๋ฅผ ์ฐจ๊ทผ์ฐจ๊ทผ ์ฝ์ด๋ณด๊ณ ์ด๋ค ๊ณผ์ ์ ํตํด ๋ฌธ์ ๋ฅผ ํ ์ง ๊ณํ์ ์ธ์ฐ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์, ๊ทธ ๊ณผ์ ์ ๋ฐ๋ผ ํ๋ํ๋์ฉ์ ์๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ๋๋ฌธ์ ์ ๋ต์ ๋ด๋๋๋ค๊ณ ํ ์ ์์ฃ . ์ด๋ฌํ ๋ฐฉ์์ Chain-of-Thought๋ผ๊ณ ํ๋ค.
The overview of Chain-of-Thought
์ต๊ทผ ๋ช๋ ๋์, NLP task์ ๋ํด ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ ๋ฏฟ์ ๋งํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐ๋์ด์๋ค. ์ค์ ๋ก๋, 1000์ต ๊ฐ ๋๋ ๊ทธ ์ด์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ๋ค์ ์ ์ ์์ ํ์ต ์์, ์๋ ์์ ์์ด๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, ๊ทธ ์ค์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ๋ ์ํ ๋ฌธ์ ์ ๊ฐ์ multi-step reasoning task์ ๋ํด์๋ ์ด๋ ค์์ ๊ฐ์ง๊ณ ์์๋ค. ๊ทธ๋ ๋ค๋ฉด, ์ด๋ป๊ฒ ํด์ผ ์ด LM์ด ๋ณต์กํ reasoning task์ ๋ํด ์ข์ ์ฑ๋ฅ์ ๋ด๊ฒ ํ ์ ์์๊น?
'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'์์๋, LM์ reasoning ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ prompting method๋ฅผ ํ๊ตฌํ์๋ค. ๊ทธ prompting์ด chain-of-thought prompting์ด๋ผ ๋ถ๋ฆฌ๋ prompting์ธ ๊ฒ์ด๋ค $($chain-of-thought๋ฅผ ์ค์ฌ์ CoT๋ผ๊ณ ์์ฑํ๊ฒ ์ต๋๋ค$)$. ์ด ๋ฐฉ๋ฒ์ multi-step์ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ์ค๊ฐ ๊ณผ์ ์ ๋ฌธ์ ๋ค๋ก ๋๋์๋ค. ์ถฉ๋ถํ ํฌ๊ธฐ์ LM๊ณผ CoT๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด, ๊ธฐ์กด์ prompting์ผ๋ก๋ ํด๊ฒฐํ์ง ๋ชปํ๋ ๋ณต์กํ ๋ฌธ์ ๋ค๋ ํด๊ฒฐํ ์ ์์๋ค.
๊ธฐ์กด Prompting๊ณผ์ ๋น๊ต
๊ธฐ์กด์ prompting์ test example์ ๋ํ ๋๋ต์ ๋ฃ๊ธฐ ์ ์, input-output pair์ ์ ๋ ฅ์ ๋จผ์ ๋ฐ์๋ค. ํ์ง๋ง, CoT์์๋, multi-step ๋ฌธ์ ์ ๋ง์ง๋ง ๋๋ต์ด ์ฃผ์ด์ง๊ธฐ ์ ์, ์ค๊ฐ์ reasoning step์ ์์ฑํ๋๋ก ์ ๋๋์๋ค. ์ด๋ฌํ ์์ด๋์ด๋, ์ฌ๋์ด ๋ณต์กํ ๋ฌธ์ ์ ๋ํด ์๊ฐํ ๋์ ๊ณผ์ ์ ํ๋ด๋ธ ๊ฒ์ด๋ค. fine-tuning์ ํตํด ์๊ฐ ํ๋ก์ธ์ค๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์ฑ์ทจ๋๋ ๋ฐ๋ฉด์, ์ด๋ฌํ ์๊ฐ ํ๋ก์ธ์ค๋ ๋ช๋ช์ CoT ์์๋ฅผ ํฌํจํ๋ ๊ฒ๋ง์ผ๋ก๋ ๊ฐ๋ฅํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋ง์ ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง๋ ์๊ณ , ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์์ ํ ํ์๋ ์๋ค!
CoT reasoning์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๊ฐ๊ฐ ํด๊ฒฐํ ์ ์๋ ์ค๊ฐ ๊ณผ์ ๋ค๋ก ๋ถํดํ๋ค. ๊ฒ๋ค๊ฐ, ์ธ์ด ๊ธฐ๋ฐ ํ๊ฒฝ์ CoT๋ ์ฌ๋์ด ์ธ์ด๋ฅผ ํตํด ํด๊ฒฐํ ์ ์๋ ๋ฌธ์ ๋ผ๋ฉด, ํ์ฉ๋ ์ ์๋ค. ์ฌ๋ฌ๊ฐ์ง ์คํ์ ํตํด CoT๊ฐ ์ฌ๋ฌ ๋ถ์ผ์์ ์๋นํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๊ณ ๋ฐํ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ์ฑ๋ฅ ํฅ์์ ๋ชจ๋ธ์ ํฌ๊ธฐ ๋ํ ๋ท๋ฐ์นจํด์ค์ผ ํ๋ค. ์๋ํ๋ฉด, CoT์ ์ด์ต์ ์ถฉ๋ถํ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ๋ชจ๋ธ์์ ๋ํ๋๊ธฐ ๋๋ฌธ์ด๋ค.
CoT์ ํน์ง
CoT๋ ๋ช ๊ฐ์ง์ ๋งค๋ ฅ์ ์ธ ํน์ง์ ๊ฐ์ง๊ณ ์๋๋ฐ, ์ด ํน์ง๋ค์ LM์ด reasoning์ ๋์ฑ ์ ์ฉํ๊ฒ ํด์ค๋ค.
- ์ฒซ ๋ฒ์งธ๋ก, CoT๋ multi-step problem์ ์ฌ๋ฌ ๊ฐ์ ์ค๊ฐ ๊ณผ์ ์ผ๋ก ๋ถํดํ ์ ์๋ค. ์ด๋ก ์ธํด, ์ถ๊ฐ์ ์ธ computation์ ๋ ๋ง์ reasoning step์ ํ์๋ก ํ๋ ๋ฌธ์ ๋ก ํ ๋น๋ ์ ์๋ค.
- ๋ ๋ฒ์งธ๋ก, CoT๋ ๋ชจ๋ธ์ด ์ด๋ค ๊ณผ์ ์ผ๋ก ํ์ ํ ์ ์๋ window๋ฅผ ์ ๊ณตํ๋ค. ์๋ฅผ ๋ค์ด, ์ด๋ค ๊ณผ์ ์ ๊ฑฐ์ณ ์ด๋ฌํ ์ ๋ต์ ๋๋ฌํ๋์ง ํ์ ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฐ ์ ์ ๋๋ฒ๊น ์ ์ฝ๊ฒ ๋ง๋ค์ด์ค๋ค๋ ์ฅ์ ์ด ์๋ค.
- ์ธ ๋ฒ์งธ๋ก, CoT๋ ์ฌ๋์ ์ธ์ด๋ฅผ ์ฌ์ฉํ ๋ชจ๋ task์ ๋ํด์๋ ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฒ์ด๋ค.
- ๋ค ๋ฒ์งธ๋ก, CoT์ ๋ํ ์์๋ฅผ few-shot์ผ๋ก ์ ๊ณตํจ์ผ๋ก์จ ์์ฝ๊ฒ ์ถฉ๋ถํ ํฌ๊ธฐ์ ๊ฑฐ๋ํ LM์ ์ด๋์ด ๋ผ ์ ์๋ค.
Experiment Results
CoT๋ฅผ ์ฌ์ฉํ์ฌ ์งํ๋ ์คํ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๊ณ , ablation study๋ฅผ ํตํด ๋ฐํ๋ธ ์ ๋ค์ ๋ํด ๋ค๋ค๋ค.
Arithmetic Reasoning
Arithmetic Reasoning์ ์ํ ๋ฌธ์ ์ ๊ดํ ์ถ๋ฆฌ ๋ฅ๋ ฅ์ ์์๋ณด๋ task๋ก, LM์ ์๋ฆฌ๋ ฅ์ ์ธก์ ํ๋ค. ์ฌ๋์๊ฒ๋ ๋งค์ฐ ์ฌ์ธ์ง ๋ชฐ๋ผ๋, LM์ ์๋นํ ์ ๋ฅผ ๋จน๊ณ ์๋ task์ด๋ค. ๋๋๊ฒ๋, PaLM 540B with CoT๋ task-specificํ๊ฒ fine-tuned๋ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , GSM8K dataset์ ๋ํด์๋ ์๋กญ๊ฒ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค.
CoT prompting์ ํ์ฉํ๊ธฐ ์ํด, ๋ง์ ๋ฐ์ดํฐ์ ๋ค์ด evaluation split์ ํ๋ ๊ฒ์ฒ๋ผ, ์์ 8๊ฐ์ few-shot exampler์ CoT์ ํจ๊ป ๊ตฌ์ฑํ์๋ค.
๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ค์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ์์ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ๋ํด์๋ CoT๊ฐ ๋ณ ํจ๊ณผ๋ฅผ ๋ณด์ง ๋ชปํ๋ค. ์ด๋ ์์ ๋งํ๋ฏ์ด, ์ถฉ๋ถํ ํ๋ผ๋ฏธํฐ์ ์๊ฐ ์์ง ์์, CoT๋ก๋ถํฐ ์ป๊ฒ ๋ ์ด์ต์ด ๋ํ๋์ง ์์๊ธฐ ๋๋ฌธ์ด๋ค.
- CoT๋ฅผ ํ์ฉํ ๋ชจ๋ธ์ ๋์ฑ ๋ณต์กํ ๋ฌธ์ ์ ๋ํด์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- labeled data๋ฅผ ์ฌ์ฉํ์ฌ fiune-tuned๋ ์ด์ ์ SOTA๋ชจ๋ธ๋ค๋ณด๋ค ๋์ฑ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
CoT๋ฅผ ๋์ฑ ์ ์ดํดํ๊ธฐ ์ํด, ์๋ง๊ฒ ์ถ๋ก ํ 50๊ฐ์ ๋๋ค ์์์, ์๋ชป ์ถ๋ก ํ 50๊ฐ์ ๋๋ค ์์๋ฅผ ๋ถ์ํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์๋ง๊ฒ ์ถ๋ก ํ 50๊ฐ์ ์์์ ๋ํด์๋ ๋ชจ๋ ๋ ผ๋ฆฌ์ ์ด๊ณ ์ฌ๋ฐ๋ฅด๊ฒ ์ถ๋ก ํ์๋ค. ํ์ง๋ง, ์๋ชป ์ถ๋ก ํ ์์๋ค์ ๋ณด๋, 46%์ CoT๋ ์๋ง๊ฒ ์งํ๋์์ง๋ง, 54%๋ ์น๋ช ์ ๊ฒฐํจ์ ๊ฐ์ง๊ณ ์์์ ์ ์ ์์๋ค.
์ถ๊ฐ์ ์ผ๋ก, CoT์๊ฒ ์ฃผ์ด์ง๋ exampler๊ฐ ๋ฌ๋ผ์ง์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ง์ด ๋ณํํ ๊น๋ ์์๋ณด์๋ค. ํ ๋ง๋๋ก, CoT์ robustness๋ฅผ ํ์ธํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์กฐ๊ธ์ ์ฑ๋ฅ ์ฐจ์ด๋ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง, ๋์ฒด์ ์ผ๋ก CoT๋ ์ด๋ค annotation์๋ ํฌ๊ฒ ์๊ด์น ์๋๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
Arithmetic Reasoning ์ธ์๋ Commonsense Reasoning๊ณผ Symbolic Reasoning์ ๋ํ ์คํ์ ๊ฒฐ๊ณผ๋ ๋ค๋ฃจ์ง๋ง, ๋ณธ ํฌ์คํธ์์๋ ๋ค๋ฃจ์ง ์๊ฒ ๋ค.
Discussion
CoT๋ฅผ LM์ ์ ์ฉํ์ฌ multi-step problem๋ค์ ํด๊ฒฐํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, arithmetic reasoning task์์ ํฐ ๋ง์ง์ ๋จ๊ธฐ๊ณ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. commonsense reasoning์ ๋ํ ์คํ์ CoT์ ์ธ์ด์ ํน์ฑ์ด ๊ทธ๊ฒ์ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๊ฐ์กฐํ์๋ค. ๋ง์ง๋ง์ผ๋ก, symbolic reasoning์ ๋ํด์, CoT๋ ๊ธด ๊ธธ์ด์ ๋ฌธ์ฅ์ ๋ํด OOD generalization์ ์ฉ์ดํ๊ฒ ํ์๋ค.
๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด์ prompting์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆผ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๋ณํ์จ์ ๋ํ๋ด๋ scaling curve๊ฐ ํํํ ๋ฐ๋ฉด, CoT prompting์ scaling curve๊ฐ ์ฐ์ํฅํ๋ ๋ชจ์ต์ ๋ณด์๋ค. ์ด๋ก์จ, ๋์ฑ๋ ํฐ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ๋ํ ๊ฐ๋ฅ์ฑ์ ์ ๋ณด์๋ค.
ํ์ง๋ง, ์ฌ๋์ ์๊ฐ ํ๋ก์ธ์ค๋ฅผ ๋ชจ๋ฐฉํ๋ค๊ณ ํ์ง๋ง, ์ค์ ๋ก ์ด ํ๋ก์ธ์ค๋ฅผ ๋ชจ๋ฐฉํ๋์ง๋ ํ์คํ ์ ์ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2201.11903
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
We explore how generating a chain of thought -- a series of intermediate reasoning steps -- significantly improves the ability of large language models to perform complex reasoning. In particular, we show how such reasoning abilities emerge naturally in su
arxiv.org
https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html
Language Models Perform Reasoning via Chain of Thought
Posted by Jason Wei and Denny Zhou, Research Scientists, Google Research, Brain team In recent years, scaling up the size of language models has been shown to be a reliable way to improve performance on a range of natural language processing (NLP) tasks. T
ai.googleblog.com