The overview of this paper
LM๋ค์ ์ ์ ๊ด๋ฒ์ํ task์ ์ ์ฉ๋๊ณ ์๋๋ฐ ์์ง token-level left-to-right decision-making ํ๋ก์ธ์ค์ ๊ตญํ๋์ด ์๋ค. ์ด๊ฒ์ ํ๊ตฌ์ ์ ๋ต์ ์ธ ๋ฐฉ๋ฒ์ ํ์๋ก ํ๋ task์์๋ ๋ชจ๋ธ์ด ํ๊ณ๋ฅผ ๊ฒช๊ฑฐ๋ ์ด๊ธฐ์ ๊ฒฐ์ ์ด ์ค์ฌ ์ญํ ์ ์ํํ ์๋ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LM ์ถ๋ก ์ ์ํ ์ ํ๋ ์์ํฌ์ธ 'Tree of Thoughts'(ToT)๋ฅผ ์ ์ํ์๋ค. ToT๋ CoT๋ฅผ ์ผ๋ฐํํ๊ณ ๋ฌธ์ ํด๊ฒฐ์ ๋ํ ์ค๊ฐ ์คํ ์ผ๋ก ์ฌ๊ฒจ์ง๋ ์ผ๊ด์ฑ ์๋ ํ ์คํธ์ ์ ๋์ ๋ํด ํ๊ตฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด ์ค๋ค. ToT๋ ์ฌ๋ฌ ์๋ก ๋ค๋ฅธ reasoning path๋ฅผ ๊ณ ๋ คํ๊ณ ๋ค์ ํ๋์ ์ฝ์ค๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด self-evaluating choice๋ฅผ ๊ณ ๋ คํจ์ผ๋ก์จ ์ ๊ตํ decision making์ LM์ด ์ํํ๊ฒ ํ๋ค.
๋ ผ๋ฌธ์์๋ ์๋นํ planning๊ณผ search๋ฅผ ํ์๋ก ํ๋ 3๊ฐ์ ์๋ก์ด task์ ๋ํด ์คํ์ ์งํํ๋ค: Game of 24, Creative Writing, Mini Crosswords. GPT-4 with CoT๋ 4% ์ ๋ ๋ฌธ์ ํด๊ฒฐ์ด ๊ฐ๋ฅํ์ง๋ง, ToT๋ ์ด๋ฅผ 74%๋ก ๋์ด์ฌ๋ ธ๋ค.
Table of Contents
1. Introduction
2. Background
3. Tree of Thoughts: Deliberate Problem Solving with LM
4. Experiments
5. Discussion
1. Introduction
ํ ์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๊ธฐ์กด์ ๋์์ธ๋ ๋ชจ๋ธ๋ค์ GPT์ PaLM๊ณผ ๊ฐ์ LM์ scaled-up ๋ฒ์ ๋ค์ด๋ค. ํ์ง๋ง ์ด๋ค์ ๊ทผ๋ณธ์ ์ธ progress๋ ๊ธฐ์กด์ auto-regressive ๋ฉ์ปค๋์ฆ์ด๋ค. ์ด ๋ฐฉ์์ left-to-right ๋ฐฉ์์ผ๋ก ํ๋ํ๋์ฉ token-level decision์ ๋ง๋ค์ด๊ฐ๋ ๋ฐฉ์์ด๋ค. ํ์ง๋ง ์ด ๊ฐ๋จํ ๋ฉ์ปค๋์ฆ์ด general problem solver LM์ผ๋ก ์ถฉ๋ถํ ๊น? ๊ทธ๋ ์ง ์๋ค๋ฉด ์ด๋ค ๋ฌธ์ ๊ฐ ํ์ฌ ํจ๋ฌ๋ค์์ ๋์ ํ๊ณ ๋์ฒด ๋ฉ์ปค๋์ฆ์ ๋ฌด์์ผ๊น?
์ฌ๋์ ์ธ์ง ๊ณผ์ ์ ์ด ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ์ํ ๋ช ๊ฐ์ง ์ค๋ง๋ฆฌ๋ฅผ ์ ๊ณตํ๋ค. 'dual process'์ ๋ํ ์ฐ๊ตฌ๋ ์ฌ๋์ด ๊ฒฐ์ ์ ๋ด๋ฆด ๋ ๋ ๊ฐ์ง ๋ชจ๋๋ฅผ ๊ฐ์ง๋ค๊ณ ์ ์ํ๋ค.
- System 1: fast & automatic. ๋ฌด์์์ ๋ชจ๋
- System 2: slow & deliberate(=๊ณํ์ ์ธ). ์์์ ๋ชจ๋
LM์ ๊ฐ๋จํ ์ฐํฉ์ token-level์ ์ ํ์ 'System 1'์ ์ฐ์์ํค๊ณ , ๋ฐ๋ผ์ ๋์ฑ ๊ณํ์ ์ธ 'System 2' planning ํ๋ก์ธ์ค์ ์ํ augmentation์ผ๋ก๋ถํฐ ์ด์ต์ ์ป๋๋ค. ์ฌ๊ธฐ์ 'Systme 2'์ planning ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ํ๋๋ง์ ๋ฝ๋ ๋์ ์ ํ์ฌ ์ ํ์ ๋ํ ๋ค์ํ ๋์์ ์ ์ง & ํ๊ตฌ
- ํ์ฌ ์ํ๋ฅผ ํ๊ฐํ๊ณ ์ ๊ทน์ ์ผ๋ก ๋์๊ฐ์ง ๋๋ ๋์ฑ ์ ์ญ์ ์ธ ๊ฒฐ์ ์ ๋ง๋ค๊ธฐ ์ํด backtrack ํ ์ง ์ ํจ
๋ ผ๋ฌธ์์๋ ์ด๋ฌํ planning ํ๋ก์ธ์ค๋ฅผ ๋์์ธํ๊ธฐ ์ํด ํธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ Tree of Thoughts(ToT)๋ฅผ ์ ์ํ์๋ค. ToT๋ ์ ๊ทน์ ์ผ๋ก tree of thought๋ฅผ ์ ์งํ๋๋ฐ, ์ฌ๊ธฐ์ thought๋ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ์ค๊ฐ ์คํ ์ผ๋ก ์ฌ๊ฒจ์ง๋ ์ผ๊ด๋ language sequence์ด๋ค(ํ 1). ์ด๋ฌํ high-level semantic unit์ LM์ด ์๋ก ๋ค๋ฅธ thought์ ๋ํด ์ฒ๋ฆฌํ๋ ๊ฒ์ ์์ฐ์ด๋ก ๋์ด ์๋ ๊ณํ์ ์ธ ์ถ๋ก ํ๋ก์ธ์ค๋ฅผ ํตํด self-evaluate ํ๊ฒ ํ๋ฝํด ์ค๋ค(๊ทธ๋ฆผ 2, 4, 6). ๋ง์ง๋ง์ผ๋ก ๋ค์ํ thought๋ฅผ ์์ฑํ๊ณ ํ๊ฐํ๊ธฐ ์ํด ์ธ์ด ๊ธฐ๋ฐ ๋ฅ๋ ฅ๊ณผ BFS์ DFS ๊ฐ์ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ฌถ์๋ค. ์ด๊ฒ์ lookahead์ backtracking์ ์ฌ์ฉํ์ฌ tree of thoughts์ ์ฒด๊ณ์ ํ๊ตฌ๋ฅผ ํ๋ฝํด ์ค๋ค.
์คํ ์ชฝ์ผ๋ก ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ LM๋ค๋ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ 3๊ฐ์ ๋ฌธ์ ์ ๋ํด์ ์ ์ํ์๋ค: Game of 24, Creative Writing, Crosswords(ํ 1). ์ด task๋ค์ ์ฐ์ญ์ , ์ํ์ , ๊ธฐ๋ณธ ์์, ์ดํ ์ถ๋ก ๋ฅ๋ ฅ, ์ฒด๊ณ์ ๊ณํ ์ธ์ฐ๊ธฐ ๋๋ ๊ฒ์์ ํ์๋ก ํ๋ค. ์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ๋ ์์ธํ๊ฒ ์ดํด๋ณด๋๋ก ํ๊ฒ ๋ค.
2. Background
ToT์ ๋ํด์ ์์๋ณด๊ธฐ ์ ์ ๊ธฐ์กด์๋ ์ด๋ค prompting ๋ฐฉ๋ฒ๋ค์ด ์์๋์ง์ ๋ํด์ ์์๋ณด๋๋ก ํ๊ฒ ๋ค.
Input-output (IO) prompting. ์ ๋ ฅ $x$๊ฐ ์ฃผ์ด์ก์ ๋ $y$๋ฅผ ์ถ๋ ฅํ๋ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค: $y ~ p_{\theta}(y|prompt_{IO}(x))$. ์ฌ๊ธฐ์ $prompt_{IO}(x)$๋ task instruction๊ณผ ์ ๋ ฅ $x$๋ฅผ ๋ฌถ์ ๊ฒ์ผ๋ก ๋ช ๊ฐ์ few-shot input-output example์ด ๋ค์ด๊ฐ๊ธฐ๋ ํ๋ค.
Chain-of-thought (CoT) prompting. input $x$์ output $y$์ ๋งคํ์ด ์ฌ์ํ์ง ์๋ค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋์๋ค. ์ด prompting ๋ฐฉ์์ ํต์ฌ ์์ด๋์ด๋ $x$์ $y$๋ฅผ ์๊ธฐ ์ํด ์๊ฐ์ ๊ณ ๋ฆฌ(chain of thought) $z_1, \cdots, z_n$์ ์๊ฐํ๋ค๋ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ๊ฐ $z_i$๋ ๋ฌธ์ ํด๊ฒฐ์ ์ํด ์๋ฏธ ์๋ ์ค๊ฐ ์คํ ์ผ๋ก ์ฌ๊ฒจ์ง๋ ์ผ๊ด๋ language sequence์ด๋ค.
Self-consistency with CoT(CoT-SC). CoT method์ ensemble ๋ฐฉ์์ธ ๊ฒฉ์ผ๋ก $k$ ๊ฐ์ ์๋ก ๋ค๋ฅธ chain of thought๋ฅผ ์ํ๋งํ๋ค. ๊ทธ๋ค์์ ๊ฐ์ฅ ๋น๋ฒํ๊ฒ ์ถ๋ ฅ๋ output์ ์ต์ข output์ผ๋ก ๋ฐํํ๋ค. CoT-SC๋ CoT๋ฅผ ๊ฐ์ ์ํจ method๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ์๋ ์ฌ๋ฌ ๊ฐ์ง ์๋ก ๋ค๋ฅธ output decision์ด ์์ ๊ฒ์ด๋ผ๋ ์์ด๋์ด์์ ์ฐฉ์๋์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ํ๋ถํ thought ์ธํธ๋ฅผ ํ๊ตฌํจ์ผ๋ก์จ ๋์ฑ ์ ๋ขฐ๋ ์๋ output decision์ ๋ด๋ฆด ์ ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ์๋ค.
๋ค์์ ๊ทธ๋ฆผ 1์ ๋ณด๋ฉด ๋ ์ดํด๊ฐ ์ ๋ ๊ฒ์ด๋ค.
3. Tree of Thoughts: Deliberate Problem Solving with LM
์ฌ๋์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ ์กฐํฉ์ problem space์์ search๋ฅผ ์ํํ๋ค. tree์ ๋ ธ๋๋ ๋ถ๋ถ์ ์๋ฃจ์ ์ผ๋ก ํํ๋๊ณ , branch๋ ์ด๋ค์ ์กฐ์ ํ๋ ์ฐ์ฐ์์ ํด๋น๋๋ค. ์ด๋ฌํ ๊ด์ ์ ๊ธฐ์กด์ LLM์ด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ฌธ์ ์ ์ ๊ฐ์กฐํ๋ค.
- Locally, thought process ๊ฐ์ ์๋ก ๋ค๋ฅธ ์ฐ๊ฒฐ์ ํํํ์ง ๋ชปํ๋ค. → tree์ branch
- Globally, ์ด๋ ํ planning lookahead๊ณผ backtracking๋ ํฌํจํ์ง ๋ชปํ๋ค. → heuristic-guided search
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ LM์ด thought์ ๋ํด ์ฌ๋ฌ reasoning path๋ฅผ ํํํ ์ ์๋๋ก ํ๋ฝํด ์ฃผ๋ Tree of Thought(ToT)๋ฅผ ์ ์ํ์๋ค(๊ทธ๋ฆผ 1(c)). ToT๋ ๋ชจ๋ ๋ฌธ์ ๋ฅผ tree์ ๋ํ ๊ฒ์์ผ๋ก ์ฌ๊ธด๋ค. ์ฌ๊ธฐ์ ๊ฐ๊ฐ์ ๋ ธ๋๋ state $s = [x, z_{1\cdots i}]$๋ก thought์ input๊ณผ sequence์ ํจ๊ป ๋ถ๋ถ์ ์๋ฃจ์ ์ ๋ํ๋ธ๋ค. ToT์ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ๋ค์์ 4๊ฐ์ง ์ง๋ฌธ์ ๋๋ตํ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๋ค.
1. Thought decomposition. CoT๋ ๋ถ๋ช ํ ๋ถํด ์์ด ์ผ๊ด์ ์ผ๋ก thought๋ฅผ ์ํ๋งํ๋ ๋ฐ๋ฉด์, ToT๋ thought์ ์ค๊ฐ ์คํ ์ ๋์์ธํ๊ณ ๋ถํดํ๊ธฐ ์ํด ๋ฌธ์ ์ ํน์ฑ์ ํ์ฉํ๋ค. ํ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, ์๋ก ๋ค๋ฅธ ๋ฌธ์ ์ ๋ฐ๋ผ, thought์ ํํ๋ ๋ณํํ๋ค. ์ผ๋ฐ์ ์ผ๋ก thought๋ LM์ด ์ ๋งํ๊ณ ๋ค์ํ sample์ ์์ฑํ ์ ์๋๋ก ์ถฉ๋ถํ ์์์ผ ํ๊ณ LM์ด ์ด๋ค์ ์์ธก์ ํ๊ฐํ ์ ์์ ์ ๋๋ก๋ ์ปค์ผ ํ๋ค.
2. Thought generator $G(p_{\theta}, s, k)$. tree state $s = [x, z_{1\cdots i}]$๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ค์ thought step์ ๋ํด $k$ ๊ฐ์ ํ๋ณด๋ฅผ ์์ฑํ๊ธฐ ์ํ ๋ ๊ฐ์ง ์ ๋ต์ ๊ณ ๋ คํด ๋ณผ ์ ์๋ค:
- Sample: CoT prompt๋ก๋ถํฐ thought๋ฅผ ์ํ๋งํจ. ์ด ์์ ์ thought space๊ฐ ํ๋ถํ ๋ ๋ ์ ๋จ.
- Propose: 'propose prompt'๋ฅผ ์ฌ์ฉํด์ ์์ฐจ์ ์ผ๋ก thought ์ ์ํจ. ์ด ์์ ์ thought process๊ฐ ๋์ฑ ์ ํ๋ ๋ ์ ๋ผ์, ๋๊ฐ์ context์์ ์๋ก ๋ค๋ฅธ thought๋ฅผ ์ ์ํ๋ ๊ฒ์ ๋ณต์ ๋ฅผ ํผํ๊ฒ ํด ์ค.
3. State evaluator $V(p_{\theta|, S)$. ์๋ก ๋ค๋ฅธ state์ ๋ณ๊ฒฝ์ด ์ฃผ์ด์ง๋ฉด state evaluator๋ progress๋ฅผ ํ๊ฐํ๋ค. ํด๋ฆฌ์คํฑ์ ๊ฒ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด์์ง๋ง, ์ด๋ค์ ์ผ๋ฐ์ ์ผ๋ก ํ๋ก๊ทธ๋๋ฐ๋์ด ์๊ฑฐ๋ ํ์ต๋์ด ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ณํ์ ์ผ๋ก state๋ฅผ ์ถ๋ก ํ๊ธฐ ์ํด LM์ ์ฌ์ฉํ๋ ์ธ ๋ฒ์งธ ๋์์ ์ ์ํ์๋ค. ์ ์ฉ ์์ ์ด๋ฌํ ๊ณํ์ ํด๋ฆฌ์คํฑ์ ํ๋ก๊ทธ๋๋ฐ๋ ๊ท์น๋ณด๋ค ์ ์ฐํ๊ณ ํ์ต๋ ๋ชจ๋ธ๋ณด๋ค ์ํ ํจ์จ์ ์ด๋ค. thought generator์ ์ ์ฌํ๊ฒ ๋ ผ๋ฌธ์์๋ state๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ๋๋ ํจ๊ป ํ๊ฐํ๊ธฐ ์ํ ๋ ๊ฐ์ง ์ ๋ต์ ์ ์ํ์๋ค:
- Value: ๊ฐ state๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก - ์ฌ๊ธฐ์ value prompt๋ ์ค์นผ๋ผ ๊ฐ(1-10) ๋๋ ํด๋ฆฌ์คํฑ ํ๊ฒ ๊ฐ์ผ๋ก ๋ณํ๋ ์ ์๋ ๋ถ๋ฅ๋ฅผ ์์ฑํด ๋ด๊ธฐ ์ํด state $s$์ ๋ํด ์ถ๋ก ํ๋ค. ์ด ์์ ์์๋ ์์์ lookahead ์๋ฎฌ๋ ์ด์ + commonsense๋ฅผ ํตํด ํ๊ฐ๋ฅผ ํ๊ตฌํ์๋ค. ์ฌ๊ธฐ์ ์ ์(์์์ lookahead ์๋ฎฌ๋ ์ด์ )๋ 'good' state๋ฅผ ์ด์งํ๊ณ , ํ์(commonsense)๋ 'bad' state๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ ๋์์ค๋ค. ์ด๋ฌํ valuation์ ์๋ฒฝํ ํ์๋ ์๊ณ , ๊ทผ์ฌ ์ ๋๋ง ๋๋ฉด ๋๋ค.
- Vote: state ๊ฐ์ - ์ฌ๊ธฐ์ 'good' state๋ vote prompt์์ ์๋ก ๋ค๋ฅธ state $S$๋ฅผ ๊ณํ์ ์ผ๋ก ๋น๊ตํ ๊ฒ์ ๊ธฐ๋ฐํด์ ํฌํ๋๋ค. problem success๋ฅผ ์ง์ ์ ์ธ ๊ฐ์ผ๋ก ๋ํ๋ด๊ธฐ ํ๋ค ๋๋ ์๋ก ๋ค๋ฅธ ๋ถ๋ถ์ ์๋ฃจ์ ์ ๋น๊ตํ๊ณ ๊ฐ์ฅ ์ ๋งํ ๊ฒ์ ํฌํ๋ฅผ ํ๋ ๋ฐฉ์์ผ๋ก ํ๋ค.
4. Search algorithm. ๋ ผ๋ฌธ์์๋ ๋น๊ต์ ๊ฐ๋จํ 2๊ฐ์ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ํ๊ตฌํ๊ณ ๋์ฑ ๋ฐ์ ๋ ํ๋๋ฅผ ์๊ฐํ๋ค:
- Breadth-first search(BFS) (Alrorithm 1)์ ์คํ ๋น ๊ฐ์ฅ ์ ๋งํ $b$๊ฐ์ state ์ธํธ๋ฅผ ์ ์ง์ํจ๋ค. ์ด ๋ฐฉ๋ฒ์ Game of 24์ ์ฌ์ฉ๋๊ณ , ์ฌ๊ธฐ์ tree depth๋ ์ ํ๋์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๊ธฐ์ thought step์ด ํ๊ฐ๋ ์ ์๊ณ , small set์ผ๋ก ๊ฐ์ง์น๊ธฐ๊ฐ ๋ ์ ์๋ค.
- Depth-first search(DFS) (Algorithm 2)์ final output์ ๋๋ฌํ๊ธฐ ์ ๊น์ง๋ ํ์ฌ state $s$์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ๊ฐ ๋ถ๊ฐ๋ฅํ๋ค๊ณ ๋ณด์ผ ๋ ๊ฐ์ฅ ์ ๋งํ state๋ฅผ ํ๊ตฌํด ๋๊ฐ๋ค. ํ์์ ๊ฒฝ์ฐ์ $s$์ ํ์ ํธ๋ฆฌ๋ ์ฐฉ์ทจ๋ฅผ ์ํด ํ์์ ๊ตํํ๊ธฐ ์ํด ๊ฐ์ง์น๊ธฐ๋๋ค. 2๊ฐ์ ๊ฒฝ์ฐ์์ ํ๊ตฌ๋ฅผ ๊ณ์ํ๊ธฐ ์ํด DFS๋ $s$์ parent state๋ฅผ backtrack ํ๋ค.
ToT๋ general problem-solving method๋ก์จ ์ฌ๋ฌ ์ด์ต์ ๊ฐ์ง๊ณ ์๋ค.
- Generality: IO, CoT, CoT-SC, self-refinement๋ ToT์ ์คํ์ ์ผ์ด์ค๋ก ๋ณผ ์ ์์
- Modularity: base LM ๋ฟ๋ง ์๋๋ผ ๋ถํด, ์์ฑ, ํ๊ฐ, ๊ฒ์ ํ๋ก์์ ๋ ๋ชจ๋ ๋ ๋ฆฝ์ ์ผ๋ก ํ๊ฐ๋ ์ ์์
- Adaptability: ์๋ก ๋ค๋ฅธ ๋ฌธ์ ํน์ฑ, LM ๋ฅ๋ ฅ, ์์ ์ ์ฝ ๋ฑ์ ์์ฉํ ์ ์์
- Convenience: ์ถ๊ฐ์ ์ธ ํ์ต์ด ํ์ํ์ง ์๊ณ , ๋จ์ง PLM์ด๋ฉด ์ถฉ๋ถํจ
4. Experiments
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ SoTA LM์ผ๋ก๋ถํฐ ์ํ๋ง์ ํ ๋์๋ ์ด๋ ค์ด 3๊ฐ์ task๋ฅผ ์ ์ํ์๋ค: Game of 24, Creative Writing, 5x5 Crosswords.
4-1. Game of 24
Game of 24๋ 4๊ฐ์ ์ซ์๊ฐ ์ฃผ์ด์ก์ ๋, ์ฌ์น์ฐ์ฐ์ ์ฌ์ฉํ์ฌ 24๋ฅผ ๋ง๋ค ์ ์๋์ง ์๋์ง ํ๋จํ๋ task์ด๋ค. ์๋ฅผ ๋ค์ด '4 9 10 13'์ด ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง๋ฉด, output์ '(10 - 4) * (13 - 9) = 24'์ธ ๊ฒ์ด๋ค.
Baselines. ๋ ผ๋ฌธ์์๋ 5๊ฐ์ in-context example๊ณผ ํจ๊ป input-output(IO) prompt๋ฅผ ์ฌ์ฉํ์๋ค. chain-of-thought(CoT) prompting์ ์ํด ๊ฐ input-output ์์ 3๊ฐ์ ์ค๊ฐ ๋ฐฉ์ ์์ผ๋ก augment ํ๊ณ , ๊ฐ ๋ฐฉ์ ์์ ๋๋จธ์ง 2๊ฐ์ ์ซ์์ ๋ํด ์๋ํ๊ฒ ํ์๋ค. ์๋ฅผ ๋ค์ด input์ผ๋ก ' 4 9 10 13'์ด ์ฃผ์ด์ง๋ฉด, thought๋ "13 - 9 = 4(๋จ์ ์: 4, 4, 10); 10 - 4 = 6(๋จ์ ์: 4, 6); 4 * 6 = 24(๋จ์ ์: 24)"๊ฐ ๋ ์ ์๋ค. ๋ํ CoT self-consistency baseline์ IO sample ์์์ ์ต๋ 10๋ฒ์ ๋ฐ๋ณต์ ํ๋ iterative-refine approach๋ฅผ ๊ณ ๋ คํ์๋ค. ๊ฐ ๋ฐ๋ณต์์ LM์ ์ถ๋ ฅ์ด ์ฌ๋ฐ๋ฅด์ง ์์ ๊ฒฝ์ฐ "์ค์๋ฅผ ๋ฐ์ฑํ๊ณ ๊ฐ์ ๋ ๋ต๋ณ์ ์์ฑ"ํ๊ธฐ ์ํด ๋ชจ๋ ์ด์ ๊ธฐ๋ก์ ๋ง์ถ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐฉ์ ์ ์ ํ์ฑ์ ๋ํ groundtruth ํผ๋๋ฐฑ ์ ํธ๋ฅผ ์ฌ์ฉํ๋ค.
ToT Setup. Game of 24๋ฅผ ToT์ ๋ง์ถ๊ธฐ ์ํด, thought๋ฅผ ๊ฐ๊ฐ์ด ์ค๊ฐ ๋ฐฉ์ ์์ธ 3๊ฐ์ step์ผ๋ก ๋ถํดํ๋ ๊ฒ์ด ์์ฐ์ค๋ฝ๋ค. ๊ทธ๋ฆผ 2(a)์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๋ ผ๋ฌธ์์๋ ๊ฐ ํธ๋ฆฌ์ ๋ ธ๋์์ ๋จ์์๋ ์ซ์๋ฅผ ์๊ตฌํ๊ณ LM์ด ๊ฐ๋ฅํ ๋ค์ ์คํ ์ ์ ์ํ๋๋ก ์ด๊ตฌํ๋ค. ๊ทธ๋ฆฌ๊ณ ToT์์ BFS๋ฅผ ์ํํ์๋๋ฐ, ๊ฐ ์คํ ์์ ์ต๊ณ ์ $b=5$ ํ๋ณด๋ฅผ ์ ์งํ์๋ค. ๊ทธ๋ฆผ 2(b)์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ToT์์ ๊ณํ์ ์ธ BFS๋ฅผ ์ํํ๊ธฐ ์ํด ๊ฐ thought ํ๋ณด๊ฐ 24์ ๋๋ฌํ๋์ง์ ๋ฐ๋ผ ํ๊ฐํ๋๋ก LM์ ์ด๊ตฌํ์๋ค. ๋ชฉํ๋ ๋ช ๊ฐ์ lookahead ์คํ ๊ฐ์ ํ๋จ๋ ์ ์๋ ์๋ง์ ๋ถ๋ถ์ solution์ ์ด์งํ๊ณ 'too big/small' commonsense์ ๊ธฐ๋ฐํ ๋ถ๊ฐ๋ฅํ ๋ถ๋ถ์ solution์ ์ ๊ฑฐํ๊ณ 'maybe'๋ ์ ์ง์ํค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ ๊ฐ thought์ ๋ํด 3๋ฒ value๋ฅผ ์ํ๋งํ์๋ค.
Results. ํ 2์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ IO, CoT, CoT-SC prompting method๋ task์์ ๊ฒจ์ฐ 7.3%, 4.0%, 9.0%์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ๋๋ก ์ ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ์ด์๋ ๋ฐ๋๋ก ํญ์ด $b=1$์ธ ToT๋ ์ด๋ฏธ 45%์ ์ฑ๊ณต๋ฅ ์ ๊ฐ์ง๊ณ , $b=5$์ ๊ฒฝ์ฐ์ 74%์ ์ฑ๊ณต๋ฅ ์ ๊ฐ์ง๋ค.
Error Analysis. ๊ทธ๋ฆผ 3(b)์ CoT์ ToT์์ task์ ๋ํด ์คํจํ ์ํ์ ๋ถํดํด ๋ณธ๋ค. ํนํ CoT ์ํ์ ์ฝ 60%๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ ๋๋ ๋๋ฑํ๊ฒ ์ฒ์ ์ธ ๋จ์ด๋ฅผ ์์ฑํ ํ ์ด๋ฏธ task์ ๋ํด ์คํจํ์๋ค. ์ด๋ left-to-right decoding์ ๋ฌธ์ ์ ์ ๊ฐ์กฐํ๋ค.
4-2. Creative Writing
๋ ผ๋ฌธ์์๋ 4๊ฐ์ ๋๋ค ํ ๋ฌธ์ฅ์ด input์ผ๋ก ๋ค์ด์ค๊ณ ์ด ๋ฌธ์ฅ์ผ๋ก ๋๋๋ ์ผ๊ด๋ 4๊ฐ์ ๋ฌธ๋จ์ ์์ฑํ๋ task๋ฅผ ๊ณ ์ํ์๋ค. ์ด task๋ ์ฐฝ์์ ์ธ ์๊ฐ ๋ฟ๋ง ์๋๋ผ ๋์ ์์ค์ ๊ณํ์ ํ์๋ก ํ๋ค.
Baselines. ๋ ผ๋ฌธ์์๋ task ๋น 10๊ฐ์ IO & CoT ์ํ์ ์์ฑํ์๋ค. ๋ํ ๊ฐ task์ ๋ํด ๋๋คํ IO ์ํ์ ์์ iterative-refine method๋ฅผ ๊ณ ๋ คํ์๋๋ฐ, ์ฌ๊ธฐ์ LM์ ์ ๋ ฅ ์ ์ฝ์ ๋ง์ถฐ์ง๊ณ , ๋ง์ง๋ง์ผ๋ก ์์ฑ๋ ๊ตฌ์ ์ด ์ด๋ฏธ "์๋ฒฝํ๊ฒ ์ผ๊ด๋"์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๊ณ ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ ๊ฐ์ ๋ ๊ตฌ์ ์ ์์ฑํ๋ค.
ToT Setup. ๋ ผ๋ฌธ์์๋ ์ค์ง ํ๋์ ์ค๊ฐ thought step์ ๊ฐ์ง๋ ๊น์ด๊ฐ 2์ธ ToT๋ฅผ ๋ง๋ค์๋ค - LM์ ์ฒ์์ $k=5$๊ฐ์ ๊ณํ์ ์์ฑํ๊ณ ์ต๊ณ ์ ํ๋์ ๋ํด ํฌํํ๋ค(๊ทธ๋ฆผ 4). ๊ทธ๋ค์์ ์ด์ ์ ์ฌํ๊ฒ ์ต๊ณ ์ ํ๋๋ก ๋ฝํ ๊ณํ์ ๊ธฐ๋ฐํด์ $k=5$ ๊ฐ์ ๊ตฌ์ ์ ๋ง๋ ๋ค. ์ฌ๊ธฐ์์ ๋จ๊ณ๋น ํ๋์ ์ ํ๋ง ์ ์ง๋๋ฏ๋ก ํญ ์ ํ์ $b = 1$์ด๋ค.
Results. ๊ทธ๋ฆผ 5(a)๋ 100๊ฐ์ task์ ๋ํด GPT-4์ ํ๊ท score๋ฅผ ๋ณด์ฌ์ค๋ค. ์ฌ๊ธฐ์ ToT(7.56)์ IO(6.19)์ CoT(6.93) ๋ณด๋ค ํ๊ท ์ ์ผ๋ก ๋ ์ผ๊ด์ ์ธ ๊ตฌ์ ์ ๋ง๋๋ ๊ฒ์ผ๋ก ์ฌ๊ฒจ์ง๋ค. ์ด๋ฌํ automatic metric์ ์ก์์ด ์์ผ ์๋ ์์ง๋ง, ๊ทธ๋ฆผ 5(b)๋ human preference ๋ํ CoT๋ณด๋ค ToT๋ฅผ ๋ ์ ํธํ๋ ๊ฒ์ผ๋ก ๋ณด์ ์ด ๋ฐ๊ฒฌ์ ์ ์ฆํด ์ค๋ค. ๋ง์ง๋ง์ผ๋ก, iterative-refine์ ์ด ์์ฐ์ด task์์ ๋์ฑ ํจ๊ณผ์ ์ธ๋ฐ, ์ฌ๊ธฐ์ IO ์ผ๊ด์ฑ์ 6.19์์ 7.67๋ก ๊ฐ์ ๋๊ณ , ToT๋ 7.56์์ 7.91๋ก ๊ฐ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๋ฐฉ๋ฒ์ด ToT ํ๋ ์์ํฌ์์ thought ์์ฑ์ ์ํ 3๋ฒ์งธ ๋ฐฉ๋ฒ์ด ๋ ์ ์์ ๊ฒ์ด๋ผ ๋ฏฟ๋๋ค.
4-3. Mini Crosswords
Game of 24์ Creative Writing์์, ToT๋ ๋น๊ต์ ์์ ํ์ฝ์์ ๋ณด์ฌ์ค๋ค - ์ต์ข output์ ๋๋ฌํ๊ธฐ ์ํด ์ต๋ 3๊ฐ์ thought step์ ํ์๋ก ํ๋ค. ์ฌ๊ธฐ์๋ 5x5 mini crossword๋ฅผ ์์ฐ์ด๋ฅผ ํฌํจํ๋ ๋ ์ด๋ ค์ด ๊ฒ์ ๋ฌธ์ ๋ก ํ๊ตฌํด๋ณด๋ ค ํ๋ค. ๋ค์ ๋งํด ๋ชฉํ๊ฐ ๋จ์ง task๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด ์๋๋ผ, LM์ด ์์ ์ ์๊ฐ์ ํ๊ตฌํ๊ณ ํด๋ฆฌ์คํฑ์ผ๋ก ์๋์ ์ถ๋ก ์ ํตํด ์์ ์ ํ๊ตฌ๋ฅผ ๊ฐ์ด๋ํ๋ ์ผ๋ฐ์ ์ธ problem solver๋ก์จ์ ํ๊ณ๋ฅผ ํ๊ตฌํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
Baselines. ๋ ผ๋ฌธ์์๋ IO prompt์์ 5๊ฐ์ example input-output ์์ ์ ๊ณตํ๊ณ , CoT prompt๋ ์ถ๊ฐ์ ์ผ๋ก ์ค๊ฐ ๋จ์ด๋ฅผ ํฌํจํ๋ค. ๊ทธ๋ฆฌ๊ณ 10๊ฐ์ ์ํ์ ๋ํ ๊ฐ prompt๋ฅผ ์คํํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ๋ด์๋ค.
ToT Setup. ๋ ผ๋ฌธ์์๋ state๊ฐ ๋ ์ด์ ์ ๋งํ์ง ์์ ๋๊น์ง ๊ฐ์ฅ ์ ๋งํ ํ์ ๋จ์ด ๋จ์๋ฅผ ๊ณ์ ํ์ํ ๋ค์ parent state๋ก ๋๋์๊ฐ ๋์ฒด thought๋ฅผ ํ์ํ๋ DFS(Algorithm 2)์ ํ์ฉํ๋ค. ๊ฒ์์ ๋ค๋ฃจ๊ธฐ ์ฝ๊ฒ ํ๊ธฐ ์ํด ํ์ thought๋ ์ฑ์์ง ๋จ์ด๋ ๋ฌธ์๋ฅผ ๋ณ๊ฒฝํ์ง ์๋๋ก ์ ํ๋๋ฏ๋ก ToT์๋ ์ต๋ 10๊ฐ์ ์ค๊ฐ ๋จ๊ณ๊ฐ ์๋ค. thought ์์ฑ์ ์ํด ๊ฐ state์์ ๋ชจ๋ ๊ธฐ์กด thought๋ฅผ ๋๋จธ์ง ๋จ์, ๊ทธ๋ฆฌ๊ณ ๋ค์ ๋จ์ด๋ฅผ ์ด๋์ ๋ฌด์์ ์ฑ์ธ ๊ฒ์ธ์ง์ ๋ํ ํ๋ณด๋ฅผ ์ ์ํ๊ธฐ ์ํด propose prompt๋ฅผ 5๋ฒ ์ด๋ฐํ๋ค. ๋ํ LM์ด ๋ค์ํ thought์ ๋ํ ์ ๋ขฐ ์์ค์ ์ ๊ณตํ๊ณ ํ์ํ ๋ค์ ์๊ฐ์ ์ ๋ ฌ๋ ๋ชฉ๋ก์ ์ป๊ธฐ ์ํด ์ ์ ์ ์ฒด์์ ์ด๋ฅผ ์ง๊ณํ๋๋ก ์ ๋ํ๋ค๋ ๊ฒ์ด๋ค(๊ทธ๋ฆผ 6(a)). state ํ๊ฐ์ ๊ฒฝ์ฐ ๊ฐ state๋ฅผ ๋๋จธ์ง ๋จ์์ ๋ํ ๋ฌธ์ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ์ ์ฌํ๊ฒ ๋ณํํ ๋ค์ ์ฃผ์ด์ง ์ ์ฝ ์กฐ๊ฑด์ ์ฑ์ธ ์ ์๋ ๊ฒฝ์ฐ ๊ฐ ๋จ์์ ๋ํด ํ๊ฐํ๋ค. ๋๋จธ์ง ๋จ์๊ฐ ์ฑ์ธ ์ ์๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋๋ฉด state์ ํ์ ํธ๋ฆฌ ํ์์ด ๊ฐ์ง์น๊ธฐ๋๊ณ DFS๋ ๋ค์ ์ ๋งํ thought๋ฅผ ํ์ํ๊ธฐ ์ํด ๋ถ๋ชจ๋ก ์ญ์ถ์ ํ๋ค. ์ฐ๋ฆฌ๋ DFS ๊ฒ์ ๋จ๊ณ๋ฅผ 100์ผ๋ก ์ ํํ๊ณ ๊ฐ์ฅ ๊น์ด ํ์๋ state(์ฌ๋ฌ ๊ฐ๊ฐ ์๋ ๊ฒฝ์ฐ ์ฒซ ๋ฒ์งธ ํ์๋ state)๋ฅผ ์ต์ข ์ถ๋ ฅ์ผ๋ก ๊ฐ๋จํ ๋ ๋๋ง ํ๋ค.
Results. ํ 3์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, IO์ CoT prompting method๋ word-level ์ฑ๊ณต๋ฅ ์ด 16%๋ณด๋ค ๋ฎ์ง๋ง, ToT๋ ๋ชจ๋ metric์์ ๊ฐ์ ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ฉด์ word-level์์ 60%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ฌ์คฌ๊ณ 20๊ฐ์ ๊ฒ์ ์ค 4๊ฐ๋ฅผ ํด๊ฒฐํ์๋ค. ์ด๋ฌํ ๊ฐ์ ์ ๋๋ผ์ด ๊ฒ์ด ์๋ ๊ฒ ์ฃผ์ด์ง IO์ CoT๋ ์๋ก ๋ค๋ฅธ ๋จ์, ๊ฒฐ์ ์ ๋ณํ์ฃผ๊ธฐ, backtrack์ ์๋ํ ๋งํ ๋ฉ์ปค๋์ฆ์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค.
Oracle and ablation studies. task ๋น oracle best DFS state๋ก๋ถํฐ ์ถ๋ ฅํ ๋, ToT ์ฑ๋ฅ์ ๋์์ง๊ณ 7๊ฐ์ ๊ฒ์์ ํ์ด๋ฒ๋ฆฐ๋ค. ์ด๊ฒ์ ๋ ผ๋ฌธ์ ๊ฐ๋จํ output ํด๋ฆฌ์คํฑ์ด ๊ฐ์ ๋์๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค.
5. Discussion
Limitations and future directions. ToT๋ ์ด๋ฏธ GPT-4๊ฐ ์ถฉ๋ถํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ task์์ ๋ณ๋ก ํ์ํ์ง๊ฐ ์๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ LM๋ค์ด ์ด๋ ค์์ ๊ฒช๋ 3๊ฐ์ task์ ๋ํด์ ์คํ์ ์งํํ์๋๋ฐ ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์๋ค. ํ์ง๋ง ์์ผ๋ก LM์ real-world์์ ์ฌ์ฉ๋ ๊ฒ์ด๊ธฐ์ ๋์ฑ ๋ณต์กํ task๋ฅผ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์ํ๋ค. ๋ํ ToT ๊ฐ์ ๊ฒ์ method๋ task ์ฑ๋ฅ์ ํฅ์ํ๊ธฐ ์ํด ์ผ๋ฐ ์ํ๋ง method๋ณด๋ค ๋ ๋ง์ ์์์ ํ์๋ก ํ์ง๋ง, ToT์ modular ์ตํต์ฑ์ ์ฌ์ฉ์๋ค์ด ์ด๋ฌํ performance-cost tradeoff๋ฅผ ์ปค์คํฐ๋ง์ด์ง ํ๋๋ก ํ๋ฝํด ์ฃผ๊ณ ๊ณ์ ์งํ๋๋ open-sourceํ๋ ๊ฐ๊น์ด ๋ฏธ๋์ ์ด๋ฌํ ๋น์ฉ์ ์์กฐ๋กญ๊ฒ ์ค์ฌ๋๊ฐ ๊ฒ์ด๋ค. ๋ง์ง๋ง์ผ๋ก ์ด ๋ ผ๋ฌธ์์๋ off-the-shelf LM์ ์ฌ์ฉํ๋๋ฐ ์ง์คํ์๊ณ , ToT-style์ high-level counterfactual decision making์ ์ฌ์ฉํด์ LM์ fine-tune ํ๋ ๊ฒ์ LM์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๊ธฐํ๋ฅผ ์ค ๊ฒ์ด๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.10601