์ด ํฌ์คํธ๋ PaLM์ ๋ฆฌ๋ทฐํ๋ฉด์ PaLM์ ์ฌ์ฉ๋์๋ ๊ฐ๋ ์ธ Chain-of-Thought์ ๋ํด ๊ด์ฌ์ด ์๊ฒจ์ ์์ฑ๋์๋ค. Chain-of-Thought๋ ์๋กญ๊ฒ ์๊ฒจ๋ ๊ฐ๋ ์ด ์๋๋ผ, ์๋๋ถํฐ ์กด์ฌํ๋ ๊ฐ๋ ์ธ๋ฐ, ์ฝ๊ฒ ๋งํ๋ฉด ์ฌ๋์ ์๊ฐ ๊ณผ์ ์ ์๊ฐํ๋ฉด ๋๋ค. ์๋ฅผ ๋ค์ด, ์ํ ๋ฌธ์ ๋ฅผ ํ ๋, ๋ฌธ์ ๋ฅผ ๋ณด๊ณ ๋ชจ๋ ๊ณ์ฐ์ ํ ๋ฒ์ ์ซ๋ผ๋ฝ!!.. ํ๋ฉด ์ฌ๋์ด ์๋๊ฒ ์ฃ ..! ๊ทธ๋ ์ต๋๋ค, ์ฌ๋์ ์ํ ๋ฌธ์ ๋ฅผ ๋ง๋ฅ๋จ๋ฆฌ๋ฉด, ๋ฌธ์ ๋ฅผ ์ฐจ๊ทผ์ฐจ๊ทผ ์ฝ์ด๋ณด๊ณ ์ด๋ค ๊ณผ์ ์ ํตํด ๋ฌธ์ ๋ฅผ ํ ์ง ๊ณํ์ ์ธ์ฐ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์, ๊ทธ ๊ณผ์ ์ ๋ฐ๋ผ ํ๋ํ๋์ฉ์ ์๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ๋๋ฌธ์ ์ ๋ต์ ๋ด๋๋๋ค๊ณ ํ ์ ์์ฃ . ์ด๋ฌํ ๋ฐฉ์์ Chain-of-Thought๋ผ๊ณ ํ๋ค.
The overview of Chain-of-Thought
์ต๊ทผ ๋ช๋ ๋์, NLP task์ ๋ํด ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ ๋ฏฟ์ ๋งํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐ๋์ด์๋ค. ์ค์ ๋ก๋, 1000์ต ๊ฐ ๋๋ ๊ทธ ์ด์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ๋ค์ ์ ์ ์์ ํ์ต ์์, ์๋ ์์ ์์ด๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, ๊ทธ ์ค์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ๋ ์ํ ๋ฌธ์ ์ ๊ฐ์ multi-step reasoning task์ ๋ํด์๋ ์ด๋ ค์์ ๊ฐ์ง๊ณ ์์๋ค. ๊ทธ๋ ๋ค๋ฉด, ์ด๋ป๊ฒ ํด์ผ ์ด LM์ด ๋ณต์กํ reasoning task์ ๋ํด ์ข์ ์ฑ๋ฅ์ ๋ด๊ฒ ํ ์ ์์๊น?
'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'์์๋, LM์ reasoning ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ prompting method๋ฅผ ํ๊ตฌํ์๋ค. ๊ทธ prompting์ด chain-of-thought prompting์ด๋ผ ๋ถ๋ฆฌ๋ prompting์ธ ๊ฒ์ด๋ค $($chain-of-thought๋ฅผ ์ค์ฌ์ CoT๋ผ๊ณ ์์ฑํ๊ฒ ์ต๋๋ค$)$. ์ด ๋ฐฉ๋ฒ์ multi-step์ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ์ค๊ฐ ๊ณผ์ ์ ๋ฌธ์ ๋ค๋ก ๋๋์๋ค. ์ถฉ๋ถํ ํฌ๊ธฐ์ LM๊ณผ CoT๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด, ๊ธฐ์กด์ prompting์ผ๋ก๋ ํด๊ฒฐํ์ง ๋ชปํ๋ ๋ณต์กํ ๋ฌธ์ ๋ค๋ ํด๊ฒฐํ ์ ์์๋ค.
๊ธฐ์กด Prompting๊ณผ์ ๋น๊ต
๊ธฐ์กด์ prompting์ test example์ ๋ํ ๋๋ต์ ๋ฃ๊ธฐ ์ ์, input-output pair์ ์ ๋ ฅ์ ๋จผ์ ๋ฐ์๋ค. ํ์ง๋ง, CoT์์๋, multi-step ๋ฌธ์ ์ ๋ง์ง๋ง ๋๋ต์ด ์ฃผ์ด์ง๊ธฐ ์ ์, ์ค๊ฐ์ reasoning step์ ์์ฑํ๋๋ก ์ ๋๋์๋ค. ์ด๋ฌํ ์์ด๋์ด๋, ์ฌ๋์ด ๋ณต์กํ ๋ฌธ์ ์ ๋ํด ์๊ฐํ ๋์ ๊ณผ์ ์ ํ๋ด๋ธ ๊ฒ์ด๋ค. fine-tuning์ ํตํด ์๊ฐ ํ๋ก์ธ์ค๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์ฑ์ทจ๋๋ ๋ฐ๋ฉด์, ์ด๋ฌํ ์๊ฐ ํ๋ก์ธ์ค๋ ๋ช๋ช์ CoT ์์๋ฅผ ํฌํจํ๋ ๊ฒ๋ง์ผ๋ก๋ ๊ฐ๋ฅํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋ง์ ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง๋ ์๊ณ , ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์์ ํ ํ์๋ ์๋ค!
CoT reasoning์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๊ฐ๊ฐ ํด๊ฒฐํ ์ ์๋ ์ค๊ฐ ๊ณผ์ ๋ค๋ก ๋ถํดํ๋ค. ๊ฒ๋ค๊ฐ, ์ธ์ด ๊ธฐ๋ฐ ํ๊ฒฝ์ CoT๋ ์ฌ๋์ด ์ธ์ด๋ฅผ ํตํด ํด๊ฒฐํ ์ ์๋ ๋ฌธ์ ๋ผ๋ฉด, ํ์ฉ๋ ์ ์๋ค. ์ฌ๋ฌ๊ฐ์ง ์คํ์ ํตํด CoT๊ฐ ์ฌ๋ฌ ๋ถ์ผ์์ ์๋นํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๊ณ ๋ฐํ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ์ฑ๋ฅ ํฅ์์ ๋ชจ๋ธ์ ํฌ๊ธฐ ๋ํ ๋ท๋ฐ์นจํด์ค์ผ ํ๋ค. ์๋ํ๋ฉด, CoT์ ์ด์ต์ ์ถฉ๋ถํ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ๋ชจ๋ธ์์ ๋ํ๋๊ธฐ ๋๋ฌธ์ด๋ค.
CoT์ ํน์ง
CoT๋ ๋ช ๊ฐ์ง์ ๋งค๋ ฅ์ ์ธ ํน์ง์ ๊ฐ์ง๊ณ ์๋๋ฐ, ์ด ํน์ง๋ค์ LM์ด reasoning์ ๋์ฑ ์ ์ฉํ๊ฒ ํด์ค๋ค.
- ์ฒซ ๋ฒ์งธ๋ก, CoT๋ multi-step problem์ ์ฌ๋ฌ ๊ฐ์ ์ค๊ฐ ๊ณผ์ ์ผ๋ก ๋ถํดํ ์ ์๋ค. ์ด๋ก ์ธํด, ์ถ๊ฐ์ ์ธ computation์ ๋ ๋ง์ reasoning step์ ํ์๋ก ํ๋ ๋ฌธ์ ๋ก ํ ๋น๋ ์ ์๋ค.
- ๋ ๋ฒ์งธ๋ก, CoT๋ ๋ชจ๋ธ์ด ์ด๋ค ๊ณผ์ ์ผ๋ก ํ์ ํ ์ ์๋ window๋ฅผ ์ ๊ณตํ๋ค. ์๋ฅผ ๋ค์ด, ์ด๋ค ๊ณผ์ ์ ๊ฑฐ์ณ ์ด๋ฌํ ์ ๋ต์ ๋๋ฌํ๋์ง ํ์ ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฐ ์ ์ ๋๋ฒ๊น ์ ์ฝ๊ฒ ๋ง๋ค์ด์ค๋ค๋ ์ฅ์ ์ด ์๋ค.
- ์ธ ๋ฒ์งธ๋ก, CoT๋ ์ฌ๋์ ์ธ์ด๋ฅผ ์ฌ์ฉํ ๋ชจ๋ task์ ๋ํด์๋ ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฒ์ด๋ค.
- ๋ค ๋ฒ์งธ๋ก, CoT์ ๋ํ ์์๋ฅผ few-shot์ผ๋ก ์ ๊ณตํจ์ผ๋ก์จ ์์ฝ๊ฒ ์ถฉ๋ถํ ํฌ๊ธฐ์ ๊ฑฐ๋ํ LM์ ์ด๋์ด ๋ผ ์ ์๋ค.
Experiment Results
CoT๋ฅผ ์ฌ์ฉํ์ฌ ์งํ๋ ์คํ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๊ณ , ablation study๋ฅผ ํตํด ๋ฐํ๋ธ ์ ๋ค์ ๋ํด ๋ค๋ค๋ค.
Arithmetic Reasoning
Arithmetic Reasoning์ ์ํ ๋ฌธ์ ์ ๊ดํ ์ถ๋ฆฌ ๋ฅ๋ ฅ์ ์์๋ณด๋ task๋ก, LM์ ์๋ฆฌ๋ ฅ์ ์ธก์ ํ๋ค. ์ฌ๋์๊ฒ๋ ๋งค์ฐ ์ฌ์ธ์ง ๋ชฐ๋ผ๋, LM์ ์๋นํ ์ ๋ฅผ ๋จน๊ณ ์๋ task์ด๋ค. ๋๋๊ฒ๋, PaLM 540B with CoT๋ task-specificํ๊ฒ fine-tuned๋ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , GSM8K dataset์ ๋ํด์๋ ์๋กญ๊ฒ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค.
CoT prompting์ ํ์ฉํ๊ธฐ ์ํด, ๋ง์ ๋ฐ์ดํฐ์ ๋ค์ด evaluation split์ ํ๋ ๊ฒ์ฒ๋ผ, ์์ 8๊ฐ์ few-shot exampler์ CoT์ ํจ๊ป ๊ตฌ์ฑํ์๋ค.
๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ค์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ์์ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ๋ํด์๋ CoT๊ฐ ๋ณ ํจ๊ณผ๋ฅผ ๋ณด์ง ๋ชปํ๋ค. ์ด๋ ์์ ๋งํ๋ฏ์ด, ์ถฉ๋ถํ ํ๋ผ๋ฏธํฐ์ ์๊ฐ ์์ง ์์, CoT๋ก๋ถํฐ ์ป๊ฒ ๋ ์ด์ต์ด ๋ํ๋์ง ์์๊ธฐ ๋๋ฌธ์ด๋ค.
- CoT๋ฅผ ํ์ฉํ ๋ชจ๋ธ์ ๋์ฑ ๋ณต์กํ ๋ฌธ์ ์ ๋ํด์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- labeled data๋ฅผ ์ฌ์ฉํ์ฌ fiune-tuned๋ ์ด์ ์ SOTA๋ชจ๋ธ๋ค๋ณด๋ค ๋์ฑ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
CoT๋ฅผ ๋์ฑ ์ ์ดํดํ๊ธฐ ์ํด, ์๋ง๊ฒ ์ถ๋ก ํ 50๊ฐ์ ๋๋ค ์์์, ์๋ชป ์ถ๋ก ํ 50๊ฐ์ ๋๋ค ์์๋ฅผ ๋ถ์ํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์๋ง๊ฒ ์ถ๋ก ํ 50๊ฐ์ ์์์ ๋ํด์๋ ๋ชจ๋ ๋ ผ๋ฆฌ์ ์ด๊ณ ์ฌ๋ฐ๋ฅด๊ฒ ์ถ๋ก ํ์๋ค. ํ์ง๋ง, ์๋ชป ์ถ๋ก ํ ์์๋ค์ ๋ณด๋, 46%์ CoT๋ ์๋ง๊ฒ ์งํ๋์์ง๋ง, 54%๋ ์น๋ช ์ ๊ฒฐํจ์ ๊ฐ์ง๊ณ ์์์ ์ ์ ์์๋ค.
์ถ๊ฐ์ ์ผ๋ก, CoT์๊ฒ ์ฃผ์ด์ง๋ exampler๊ฐ ๋ฌ๋ผ์ง์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ง์ด ๋ณํํ ๊น๋ ์์๋ณด์๋ค. ํ ๋ง๋๋ก, CoT์ robustness๋ฅผ ํ์ธํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์กฐ๊ธ์ ์ฑ๋ฅ ์ฐจ์ด๋ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง, ๋์ฒด์ ์ผ๋ก CoT๋ ์ด๋ค annotation์๋ ํฌ๊ฒ ์๊ด์น ์๋๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
Arithmetic Reasoning ์ธ์๋ Commonsense Reasoning๊ณผ Symbolic Reasoning์ ๋ํ ์คํ์ ๊ฒฐ๊ณผ๋ ๋ค๋ฃจ์ง๋ง, ๋ณธ ํฌ์คํธ์์๋ ๋ค๋ฃจ์ง ์๊ฒ ๋ค.
Discussion
CoT๋ฅผ LM์ ์ ์ฉํ์ฌ multi-step problem๋ค์ ํด๊ฒฐํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, arithmetic reasoning task์์ ํฐ ๋ง์ง์ ๋จ๊ธฐ๊ณ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. commonsense reasoning์ ๋ํ ์คํ์ CoT์ ์ธ์ด์ ํน์ฑ์ด ๊ทธ๊ฒ์ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๊ฐ์กฐํ์๋ค. ๋ง์ง๋ง์ผ๋ก, symbolic reasoning์ ๋ํด์, CoT๋ ๊ธด ๊ธธ์ด์ ๋ฌธ์ฅ์ ๋ํด OOD generalization์ ์ฉ์ดํ๊ฒ ํ์๋ค.
๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด์ prompting์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆผ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๋ณํ์จ์ ๋ํ๋ด๋ scaling curve๊ฐ ํํํ ๋ฐ๋ฉด, CoT prompting์ scaling curve๊ฐ ์ฐ์ํฅํ๋ ๋ชจ์ต์ ๋ณด์๋ค. ์ด๋ก์จ, ๋์ฑ๋ ํฐ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ๋ํ ๊ฐ๋ฅ์ฑ์ ์ ๋ณด์๋ค.
ํ์ง๋ง, ์ฌ๋์ ์๊ฐ ํ๋ก์ธ์ค๋ฅผ ๋ชจ๋ฐฉํ๋ค๊ณ ํ์ง๋ง, ์ค์ ๋ก ์ด ํ๋ก์ธ์ค๋ฅผ ๋ชจ๋ฐฉํ๋์ง๋ ํ์คํ ์ ์ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2201.11903
https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html