Insight ๐Ÿ˜Ž

ํ•œ ๋‹จ๊ณ„, ํ•œ ๋‹จ๊ณ„์”ฉ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ƒ๊ฐํ•ด๋ณด์ž! ๐Ÿง ๐Ÿค”

Cartinoe 2023. 8. 3. 18:05

Let's think step-by-step! ๐Ÿชœ

 ํฌ์ŠคํŒ…์˜ ์ œ๋ชฉ๊ณผ ์ด ์„น์…˜์˜ ์ œ๋ชฉ์„ ๋ดค์„ ๋•Œ ์˜์•„ํ•˜๊ฒŒ ์ƒ๊ฐํ•˜๋Š” ์‚ฌ๋žŒ๋“ค์ด ์žˆ์„ ๊ฒƒ์ด๋‹ค. '์•„๋‹ˆ ์ด ์‚ฌ๋žŒ, NLP ๊ด€๋ จ ์–˜๊ธฐ ์ž˜๋งŒ ํ•˜๋‹ค๊ฐ€ ๊ฐ‘์ž๊ธฐ ๋ฌด์Šจ ๋šฑ๋”ด์ง€๊ฐ™์€ ์†Œ๋ฆฌ๋ž˜? ๐Ÿคจ' ์ถฉ๋ถ„ํžˆ ๊ทธ๋Ÿด ์ˆ˜ ์žˆ๋‹ค! ํ•˜์ง€๋งŒ, NLP ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ฝ์–ด๋ดค๊ฑฐ๋‚˜ ์ตœ์‹  method๋“ค์— ๋Œ€ํ•ด ์ž˜ ์•Œ๊ณ  ์žˆ๋Š” ์‚ฌ๋žŒ์ด๋ฉด ํ•„์ž๊ฐ€ ๋ฌด์Šจ ์†Œ๋ฆฌ๋ฅผ ํ•˜๊ณ  ์‹ถ์–ด ํ•˜๋Š” ๊ฒƒ์ธ์ง€๋ฅผ ์•Œ ๊ฒƒ์ด๋ผ ์ƒ๊ฐํ•œ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์ด ์„น์…˜์˜ ์ œ๋ชฉ์ด 'Let's think step-by-step'์€ ์ด ํฌ์ŠคํŒ…์„ ๊ด€ํ†ตํ•˜๋Š” ๋ฌธ์žฅ์ด์ž, ์œ ๋ช…ํ•œ ๋…ผ๋ฌธ์—์„œ ์‚ฌ์šฉ๋œ method์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๊ฒŒ ๋ฌด์Šจ ์†Œ๋ฆฌ๋ƒ๊ตฌ์š”? ๊ถ๊ธˆํ•˜์‹œ๋‹ค๋ฉด, LM์ด ์‚ฌ๋žŒ๊ณผ ๋น„์Šทํ•œ ๋ฐฉ์‹์œผ๋กœ ์‚ฌ๊ณ ๋ฅผ ํ•ด์„œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ฒŒ ํ•˜๊ณ ์ž ํ•œ method๋“ค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋Š” ์ด๋ฒˆ ํฌ์ŠคํŒ…์„ ๋๊นŒ์ง€ ์ฝ์–ด์ฃผ์‹œ๋ฉด ๋  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค! ๐Ÿ˜Š ๋ฐ”๋กœ ์‹œ์ž‘ํ•ด ๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค!

 

 

The differences between human and LM ๐Ÿ†š

 LM๊ณผ ์‚ฌ๋žŒ์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์ ์€ ๋ฌด์—‡์ผ๊นŒ? ๋ฌผ๋ก , ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ์€ ์ฐจ์ด์ ์ด ์กด์žฌํ•œ๋‹ค. ํ•™์Šต ๋ฐฉ์‹๋„ ๋‹ค๋ฅด๊ณ , ํ•™์Šต ์–‘๋„ ๋‹ค๋ฅด๊ณ , ์†๋„๋„ ๋‹ค๋ฅด๊ณ , ... ์ •๋ง ์…€ ์ˆ˜๋„ ์—†์ด ๋งŽ์€ ์ฐจ์ด์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”๋ฐ, ํ•„์ž๊ฐ€ ์ƒ๊ฐํ•˜๋Š”, ์•„๋‹ˆ ์•ž์œผ๋กœ ์ด ํฌ์ŠคํŒ…์—์„œ ์†Œ๊ฐœํ•  ๋…ผ๋ฌธ๋“ค์˜ ์ €์ž๋“ค์ด ์ƒ๊ฐํ•œ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์ ์€ ์ƒ๊ฐํ•˜๋Š” ๋ฐฉ์‹์— ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•˜์˜€๋‹ค. (ํ•„์ž๋„ ๋น„์Šทํ•œ ์ƒ๊ฐ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค!) ์ƒ๊ฐํ•˜๋Š” ๋ฐฉ์‹? ๊ทธ๊ฒŒ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅด๋‹ค๋Š” ๊ฑฐ์ง€? ์ด๋Ÿฐ ์˜๋ฌธ์ด ๋“ค ์ˆ˜ ์žˆ์„ํ…๋ฐ, ํ•˜๋‚˜์˜ ์˜ˆ์‹œ๋ฅผ ๋“ค์–ด ์ด๋ฅผ ์„ค๋ช…ํ•ด๋ณด๊ณ ์ž ํ•œ๋‹ค.

 

์ฒ ์ˆ˜๊ฐ€ ๋งˆํŠธ์— ๊ฐ€์„œ ์‚ฌ๊ณผ 3๊ฐœ, ๋ฐ”๋‚˜๋‚˜ 7๊ฐœ, ์ˆ˜๋ฐ• 2๊ฐœ๋ฅผ ์‚ฌ์™”๋‹ค. ๊ฐ๊ฐ ์‚ฌ๊ณผ๋Š”

300์›, ๋ฐ”๋‚˜๋‚˜๋Š” 200์›, ์ˆ˜๋ฐ•์€ 500์› ์ผ ๋•Œ, ์ฒ ์ˆ˜๋Š” ์–ผ๋งˆ๋ฅผ

์ง€๋ถˆํ•˜์˜€๋Š”๊ฐ€?

 

 ์ž, ์œ„์™€ ๊ฐ™์€ ์ˆ˜ํ•™ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ์šฐ๋ฆฌ์˜ ๋˜‘๋˜‘ํ•œ ๋…์ž๋ถ„๋“ค์€ ์ด ์ •๋„ ๊ณ„์‚ฐ์€ ์‹์€ ์ฃฝ ๋จน๊ธฐ๋กœ ๋ฌธ์ œ๋ฅผ ๋ณด์ž๋งˆ์ž ํ•ด๊ฒฐํ•˜์˜€์„ ํ…Œ์ง€๋งŒ, ๊ทธ ์งง์€ ์ˆœ๊ฐ„์—๋„ ์šฐ๋ฆฌ์˜ ๋‡Œ๋Š” ๋ช‡ ๊ฐ€์ง€ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ์„œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์˜€์„ ๊ฒƒ์ด๋‹ค. ์ž, ํ™•์ธํ•ด ๋ณด์ž. 

 

  1. ๐ŸŽ์˜ ๊ฐœ์ˆ˜๊ฐ€ 3, ํ•˜๋‚˜๋‹น ๊ฐ€๊ฒฉ์ด 300์› → 3 × 300 = 900์›
  2. ๐ŸŒ์˜ ๊ฐœ์ˆ˜๊ฐ€ 7, ํ•˜๋‚˜๋‹น ๊ฐ€๊ฒฉ์ด 200์› → 7 × 200 = 1,400์›
  3. ๐Ÿ‰์˜ ๊ฐœ์ˆ˜๊ฐ€ 2, ํ•˜๋‚˜๋‹น ๊ฐ€๊ฒฉ์ด 500์› → 2 × 500 = 1,000์›
  4. ์ด๊ฑฐ๋ฅผ ๋‹ค ๋”ํ•ด์„œ 900 + 1,400 + 1,000 = 3,300์›
  5. Answer: 3,300์› !!

 

 ์ด์™€ ๊ฐ™์ด ์šฐ๋ฆฌ์˜ ๋‡Œ๋Š” ์•„๋ฌด๋ฆฌ ์‚ฌ์†Œํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•ด์„œ๋„ ์ด๋ ‡๊ฒŒ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ์„œ ๊ฒฐ๋ก ์„ ๋„์ถœํ•˜๊ฒŒ ๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๋”์šฑ ์ •๊ตํ•˜๊ฒŒ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด LM์€ ์–ด๋–ป๊ฒŒ ์ƒ๊ฐํ• ๊นŒ? ๋ฌผ๋ก  ๊ทธ ์†๋‚ด๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์•Œ ์ˆ˜๋Š” ์—†์ง€๋งŒ, LM์€ ๋ณดํ†ต ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹ต๋ณ€์„ ๋‚ด๋†“๊ฒŒ ๋œ๋‹ค.

 

'3,300์› ์ž…๋‹ˆ๋‹ค.'

 

 ์ด์ฏค ๋˜๋ฉด ์‚ฌ๋žŒ๊ณผ LM์˜ ์ฐจ์ด์ ์— ๋Œ€ํ•ด์„œ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ๐Ÿซก ๋ฐ”๋กœ ๊ทธ๊ฒƒ์€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค! ์‚ฌ๋žŒ์€ ํ•˜๋‚˜์˜ ํฐ ๋ฌธ์ œ๋ฅผ ์ž‘์€ ๋ฌธ์ œ ์—ฌ๋Ÿฌ ๊ฐœ๋กœ ์ชผ๊ฐœ์„œ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ˜๋ฉด์—, LM์€ ํ•˜๋‚˜์˜ ํฐ ๋ฌธ์ œ๋ฅผ ๊ทธ๋ƒฅ ํ†ต์งธ๋กœ ํ•ด๊ฒฐํ•˜๋ ค๊ณ  ํ•œ๋‹ค. ์–ด๋–ค ๋ฐฉ์‹์ด ๋” ์ด๋กœ์šธ๊นŒ? ๋‹น์—ฐํžˆ ์ „์ž์˜ ๋ฐฉ์‹์ด๋‹ค! ์‰ฌ์šด ๋ฌธ์ œ๋ฅผ ๋งŽ์ด ํ‘ผ๋‹ค๊ณ  ํ•ด์„œ ํฐ ์–ด๋ ค์›€์ด ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ, ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ์€ ๊ทธ์— ๋”ฐ๋ฅธ ๋…ธ๋ ฅ์„ ํ•„์š”๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๐Ÿ˜ฅ

 

 ์ด๋ ‡๋“ฏ ์‚ฌ๋žŒ๊ณผ LM ์‚ฌ์ด์—๋Š” ์ƒ๊ฐ ๋ถ€๋ถ„์—์„œ ์‚ฌ์†Œํ•ด ๋ณด์ด์ง€๋งŒ, ํฐ ์ฐจ์ด์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ด๋ ‡๊ฒŒ ์‚ฌ๋žŒ๊ณผ ๋น„์Šทํ•œ ์‚ฌ๊ณ ๋ฐฉ์‹์„ ํ†ตํ•ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ด๋ณด๊ณ ์ž ํ•œ method๋“ค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•œ๋‹ค. ๐Ÿ˜Š

 

Chain-of-Thought ๐Ÿง โ›“๏ธ

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)

 

 ์ฒ˜์Œ์œผ๋กœ ์†Œ๊ฐœํ•ด๋ณด๊ณ ์ž ํ•˜๋Š” ๋…ผ๋ฌธ์€ ์‚ฌ๋žŒ์˜ ์ƒ๊ฐ ๊ณผ์ •์„ ์ƒ๊ฐ์˜ ๊ณ ๋ฆฌ ์ฆ‰, 'Chain-of-Thought'๋ผ๊ณ  ์ง€์นญ์„ ํ•˜๋ฉฐ method ๋˜ํ•œ ๋˜‘๊ฐ™์€ ์ด๋ฆ„์„ ๊ฐ€์ง€๋Š” CoT(Chain-of-Thought)์ด๋‹ค. CoT๋Š” ๋ง ๊ทธ๋Œ€๋กœ ์ƒ๊ฐ์˜ ๊ณ ๋ฆฌ์ด๋ฉฐ ์•ž์„œ ์˜ˆ์‹œ๋กœ ์„ค๋ช…ํ–ˆ๋˜ ๋ฌธ์ œ์˜ ์ƒ๊ฐ ๊ณผ์ •์„ ๋– ์˜ฌ๋ฆฌ๋ฉด ์‰ฝ๊ฒŒ ์ดํ•ด๊ฐ€ ๊ฐˆ ๊ฒƒ์ด๋‹ค.

 

 ๊ทธ๋ ‡๋‹ค๋ฉด CoT๋Š” ์–ด๋–ป๊ฒŒ LM์—๊ฒŒ step-by-step ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ค„ ์ˆ˜ ์žˆ์—ˆ์„๊นŒ? CoT๋Š” ์ด๋ฅผ ์œ„ํ•ด ๋ชจ๋ธ์˜ prompt์— ์‚ด์ง ์ˆ˜์ •์„ ๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ ํƒํ•œ๋‹ค. ๊ธฐ์กด์˜ prompting์ด ์—ฌ๋Ÿฌ question๊ณผ answer๋ฅผ example๋กœ ์ฃผ๊ณ  ๋งˆ์ง€๋ง‰์— ๋‹ต์„ ์–ป๊ณ  ์‹ถ์€ question์„ ์ค€ ๋’ค์— answer๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค๋ฉด, CoT prompting์€ ๊ธฐ์กด์˜ question์„ example๋กœ ์ฃผ๋Š” ๊ฒƒ์€ ๋˜‘๊ฐ™์ด ์œ ์ง€์‹œํ‚ค๊ณ , ๋Œ€์‹ ์— answer์— ๋ฌธ์ œ๋ฅผ step-by-step์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ๊ณผ์ •์„ ํ•จ๊ป˜ ์คŒ์œผ๋กœ์จ ๋ชจ๋ธ์ด step-by-step ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์–ด์คฌ๋‹ค. ๋ง๋กœ๋งŒ ๋ณด๋ฉด ์ดํ•ด๊ฐ€ ์ž˜ ์•ˆ ๊ฐ€๋‹ˆ CoT paper์— ์žˆ๋Š” ๊ทธ๋ฆผ์„ ๋ณด๋ฉด์„œ ์ดํ•ดํ•ด ๋ณด๋„๋ก ํ•˜์ž! ๐Ÿ˜š

 

์™ผ์ชฝ: ๊ธฐ์กด prompting. ๋‹ต๋งŒ ๋ก ๋‚ด๋†“๊ฒŒ ๋œ๋‹ค. ์˜ค๋ฅธ์ชฝ: CoT prompting. step-by-step ์ถ”๋ก ์„ ํ•˜๋ฉฐ ๊ตฌ์ฒด์ ์ธ ํ’€์ด๊ณผ์ •๊ณผ ํ•จ๊ป˜ ๋‹ต์„ ์ถœ๋ ฅํ•œ๋‹ค. (์ถœ์ฒ˜: CoT paper)

 

 ์œ„์˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด, CoT reasoning(์ถ”๋ก )์€ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฐ„์†Œํ™”๋œ ๋ฌธ์ œ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ค€๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋‹น์—ฐํ•˜๊ฒŒ๋„ ์—ฌ๋Ÿฌ question & answer example์„ ์ œ๊ณตํ•ด์ค˜์•ผ ํ•˜๋‹ˆ few-shot learning์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๐Ÿ˜Š

 

 ๊ทธ๋ ‡๋‹ค๋ฉด CoT reasoning์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์–ด๋– ํ• ๊นŒ? ์‹คํ—˜ ๊ฒฐ๊ณผ์—์„œ๋„ ๊ณผ์—ฐ ์ข‹์€ ๋ชจ์Šต์„ ๋ณด์—ฌ์คฌ์„๊นŒ? CoT reasoning์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์‚ด์ง ๋…ํŠนํ•œ ํ˜•ํƒœ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ๋‹น์—ฐํžˆ ์„ฑ๋Šฅ์ด ์ข‹์•„์ง€๊ธด ํ•˜์˜€์œผ๋‚˜, ๊ทธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์กฐ๊ฑด๋ถ€์ ์ด์—ˆ๋‹ค๋Š” ์‚ฌ์‹ค์„ ์ œ์™ธํ•˜๋ฉด ๋ง์ด๋‹ค! ๐Ÿ˜ฃ ๋‹ค์Œ์˜ ํ‘œ๋ฅผ ๋ณด๋ฉด ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด, CoT reasoning์˜ ๊ฒฝ์šฐ ์ž‘์€ ์‚ฌ์ด์ฆˆ์˜ ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ๋Š” ๋ณ„ ํšจ๊ณผ๊ฐ€ ์—†์—ˆ์œผ๋‚˜, ๋ชจ๋ธ์˜ ์‚ฌ์ด์ฆˆ๊ฐ€ ์ปค์ง€๋‹ˆ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ธฐ ์‹œ์ž‘ํ•˜์˜€๋‹ค. ์ด๋กœ ๋ฏธ๋ฃจ์–ด ๋ณด์•„ 'CoT reasoning์—๋Š” ์ ๋‹นํ•œ ์‚ฌ์ด์ฆˆ์˜ ๋ชจ๋ธ์ด ํ•„์š”ํ•œ ๊ฒŒ ์•„๋‹๊นŒ?'์™€ ๊ฐ™์€ ๊ฐ€์„ค์„ ๋– ์˜ฌ๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค. 

 

CoT reasoning์˜ ๊ฒฐ๊ณผ (์ถœ์ฒ˜: CoT paper)

 

 ์ด๋ ‡๊ฒŒ ์™„๋ฒฝํ•ด ๋ณด์ด๋Š” CoT๋„ ํฐ ์‚ฌ์ด์ฆˆ์˜ ๋ชจ๋ธ์ด ์•„๋‹Œ ๊ฒฝ์šฐ์—๋Š” ๋ณ„ ํšจ๊ณผ๊ฐ€ ์—†๋˜ ๊ฒƒ์ฒ˜๋Ÿผ, ๋˜ ๋‹ค๋ฅธ ๋‹จ์ ์ด ์กด์žฌํ–ˆ๋Š”๋ฐ, ๊ทธ๊ฑด ๋ฐ”๋กœ CoT example์˜ ํ˜•ํƒœ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋˜ ์ฒœ์ฐจ๋งŒ๋ณ„๋กœ ๋‹ฌ๋ผ์กŒ๋‹ค๋Š” ์ ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์•„์ง์€ ๋ถ€์กฑํ•œ ์ ์ด ๋งŽ๊ธด ํ•˜์ง€๋งŒ, ๊ทธ๋Ÿผ์—๋„ ๋ชจ๋ธ์—๊ฒŒ ์‚ฌ๋žŒ๊ณผ ๋น„์Šทํ•œ ์ƒ๊ฐ ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ฐ€์ง€๊ฒŒ ํ–ˆ๋‹ค๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ๋†€๋ผ์šด ์‹œ๋„๋ฅผ ํ•œ ๋…ผ๋ฌธ์ด์—ˆ๋‹ค.

 

annotator์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์ง (์ถœ์ฒ˜: CoT paper)

 

 CoT์— ๋Œ€ํ•œ ์„ค๋ช…์€ ์—ฌ๊ธฐ์„œ ๋งˆ์น˜๋‚˜, ๋”์šฑ ์ž์„ธํ•˜๊ฒŒ ์•Œ๊ณ  ์‹ถ๋‹ค๋ฉด CoT paper ๋ฆฌ๋ทฐ๋ฅผ ํ™•์ธํ•˜๊ธธ ๋ฐ”๋ž€๋‹ค!

 

Large Language Models are Zero-shot Reasoners (Kojima et al., 2022)

 

 CoT์˜ ๋†€๋ผ์šด ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•œ ํ›„, CoT์— ๋Œ€ํ•œ ๊ด€์‹ฌ์€ ์‰ฝ๊ฒŒ ์‚ฌ๊ทธ๋ผ๋“ค์ง€ ์•Š์•˜๊ณ , ๊ทธ ๊ด€์‹ฌ์€ ๊ธฐ์กด์˜ Few-shot CoT๋ฅผ Zero-shot์œผ๋กœ ๋ฐ”๊พธ๊ธฐ๊นŒ์ง€ ์ด๋ฅด๋ €๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” Zero-shot CoT์— ๋Œ€ํ•ด ์ œ์•ˆํ•˜์˜€๋Š”๋ฐ, ์–ด๋–ป๊ฒŒ ๊ฐ€๋Šฅํ–ˆ๋˜ ๊ฒƒ์ผ๊นŒ? ๊ธฐ์กด์˜ CoT์—์„œ๋Š” few-shot์„ ํ†ตํ•ด ์—ฌ๋Ÿฌ CoT example์ด ์ฃผ์–ด์ง€๋ฉด ์ด๋ฅผ ํ™œ์šฉํ•ด CoT reasoning์„ ํ•  ์ˆ˜ ์žˆ์—ˆ๋˜ ๊ฒƒ์ธ๋ฐ, ๋งŒ์•ฝ ์ด example์ด ์ฃผ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค๋ฉด? ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ• ๊นŒ? ์™ ์ง€ ์–ด๋ ต๊ฒŒ ๋А๊ปด์งˆ ์ˆ˜๋„ ์žˆ๊ฒ ์ง€๋งŒ, ์‚ฌ์‹ค ์ผ๋ฐ˜ CoT๋ณด๋‹ค ํ›จ์”ฌ ์‰ฌ์šฐ๋‹ˆ ๋„ˆ๋ฌด ๊ฑฑ์ •ํ•˜์ง€ ๋ง๋ผ! ๐Ÿ˜ฎ‍๐Ÿ’จ

 

 ์ด ํฌ์ŠคํŒ…์˜ ์ดˆ๋ฐ˜์— ํ–ˆ์—ˆ๋˜ ๋ง์ธ 'Let's think step-by-step'์„ ๊ธฐ์–ตํ•˜๋Š”๊ฐ€? ์ดˆ๋ฐ˜๋ถ€์— ์ด ๋ฌธ์žฅ์ด ์ค‘์š”ํ•œ method๋กœ ์‚ฌ์šฉ๋œ ๋…ผ๋ฌธ์ด ์žˆ๋‹ค๊ณ  ์„ค๋ช…ํ–ˆ๋Š”๋ฐ, ๋ฐ”๋กœ ๊ทธ ๋…ผ๋ฌธ์ด ์ด ๋…ผ๋ฌธ์ด๋‹ค!! ๐Ÿ˜Š Zero-shot CoT์—์„œ๋Š” ๋ชจ๋ธ์—๊ฒŒ CoT ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜๊ธฐ ์œ„ํ•ด 'Let's think step-by-step'์ด ํ•œ ๋ฌธ์žฅ๋งŒ์„ ์‚ฌ์šฉํ•œ๋‹ค. ๐Ÿ˜ ๊ธฐ์กด์˜ Few-shot CoT์™€ Zero-shot CoT๋ฅผ ๋น„๊ตํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ •๋ง์ด์ง€ ๋„ˆ๋ฌด ๊ฐ„๋‹จํ•˜์ง€ ์•Š์€๊ฐ€? ๋ฌผ๋ก  ์„ฑ๋Šฅ์€ Few-shot์— ๋น„ํ•ด ์‚ด์ง ๋–จ์–ด์ง€๊ธฐ๋Š” ํ•˜๋‚˜, ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  Few-shot CoT์— ๋น„ํ•ด ํ›จ์”ฌ ๋” ๊ฐ„๋‹จํ•˜๋‹ค! ๐Ÿซข 

 

Few-shot CoT vs. Zero-shot CoT (์ถœ์ฒ˜: Zero-shot CoT paper)

 

 ๋ฌผ๋ก , Zero-shot CoT์˜ ๊ฒฝ์šฐ ์™„๋ฒฝํ•˜๊ฒŒ ๋‹ต์„ ์ถœ๋ ฅํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ ๊ฐ€์ง€ ๋‹จ๊ณ„๊ฐ€ ๋” ํ•„์š”ํ•˜๊ธด ํ•˜๋‹ค. ํ•˜์ง€๋งŒ ๊ทธ๋Ÿผ์—๋„ ์ •๋ง ๊ฐ„๋‹จํ•œ ๋ฐฉ์‹์ด๊ธฐ์— ํ˜„์žฌ๋„ Zero-shot CoT๋Š” ๋งŽ์ด ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค.

 

Zero-shot CoT์˜ pipeline. ๋‹ต์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•œ ๊ฐ€์ง€ ์Šคํ…์ด ๋” ํ•„์š”ํ•˜๋‹ค. (์ถœ์ฒ˜: Zero-shot CoT paper)

 

 

 Zero-shot CoT์— ๋Œ€ํ•œ ์„ค๋ช…์€ ์—ฌ๊ธฐ์„œ ๋งˆ์น˜๋‚˜, ๋”์šฑ ์ž์„ธํ•œ ๋‚ด์šฉ์ด ๊ถ๊ธˆํ•˜๋‹ค๋ฉด Zero-shot CoT ๋ฆฌ๋ทฐ๋ฅผ ํ™•์ธํ•˜๊ธธ ๋ฐ”๋ž€๋‹ค.

 

Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)

 

 Self-Consistency๋Š” CoT์˜ ๊ฒฐ๊ณผ๋ฅผ ์ข€ ๋” ๊ฐœ์„ ์‹œํ‚ค๊ณ ์ž ํ•œ method๋กœ majority vote๋ฅผ ์‚ฌ์šฉํ•ด ์—ฌ๋Ÿฌ ๋ฒˆ์˜ CoT๋ฅผ ํ•˜์—ฌ ๊ฐ€์žฅ ๋งŽ์ด ๋‚˜์˜จ answer๋ฅผ ์ตœ์ข… answer๋กœ ์‚ผ๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋ ‡๊ฒŒ๋งŒ ์–˜๊ธฐ๋ฅผ ํ•˜๋ฉด ์ œ๋Œ€๋กœ ์ดํ•ด๊ฐ€ ๊ฐ€์งˆ ์•Š์œผ๋‹ˆ, ์˜ˆ๋ฅผ ๋“ค์–ด์„œ ์„ค๋ช…ํ•ด ๋ณด๋„๋ก ํ•˜๊ฒ ๋‹ค.

 

 CoT๋Š” ํ•œ ๋ฌธ์ œ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ž‘์€ ๋ฌธ์ œ๋กœ ๋‚˜๋ˆ„์–ด์„œ ์ˆœ์ฐจ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ด๋•Œ ๋งŒ์•ฝ ์ค‘๊ฐ„ ์Šคํ…์—์„œ ์˜ค๋‹ต์„ ๋‚ด๋†“๊ฒŒ ๋œ๋‹ค๋ฉด, ์ตœ์ข… answer๋Š” ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ• ๊นŒ? ์ˆ˜ํ•™ ๋ฌธ์ œ๋กœ ์ƒ๊ฐํ•ด ๋ณด์ž. ์ˆ˜ํ•™ ๋ฌธ์ œ์—์„œ ์ค‘๊ฐ„์— ๊ณ„์‚ฐ ์‹ค์ˆ˜๊ฐ€ ํ•œ ๋ฒˆ ๋ฐœ์ƒํ•˜๋ฉด ์ตœ์ข… ๋‹ต์€ ์ •๋‹ต๊ณผ ๋‹ค๋ฅด๊ฒŒ ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค. CoT๋„ ๋งˆ์ฐฌ๊ฐ€์ง€์ด๋‹ค. ์ค‘๊ฐ„์— ์˜ค๋‹ต์„ ๋‚ด๋†“๊ฒŒ ๋˜๋ฉด ์ตœ์ข… answer๋„ ์ •๋‹ต๊ณผ๋Š” ๋‹ค๋ฅธ ๋‹ต์„ ์–ป๊ฒŒ ๋œ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„๊นŒ? Self-consistency๋Š” ์—ฌ๋Ÿฌ ๋ฒˆ์˜ CoT๋ฅผ ์ˆ˜ํ–‰ํ•จ์œผ๋กœ์จ ๋‚˜์˜จ ๋‹ค์–‘ํ•œ ๋‹ต๋“ค ์ค‘์—์„œ ๊ฐ€์žฅ ๋นˆ๋„๊ฐ€ ๋†’์€ ๋‹ต์„ ์ตœ์ข… ๋‹ต์œผ๋กœ ์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์ข€ ๋” ์ตœ์ ์˜ ๋‹ต์„ ์–ป๊ฒŒ ๋งŒ๋“ค๊ณ ์ž ํ•œ ๋ฐฉ์‹์ด Self-consistency์ด๋‹ค.

 

CoT prompting๊ณผ Self-consistency์˜ ์ฐจ์ด (์ถœ์ฒ˜: Self-Consistency paper)

 

Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023)

 

 ๋งˆ์ง€๋ง‰์œผ๋กœ ์•Œ์•„๋ณผ method๋Š” Tree-of-Thought์ด๋‹ค. ToT๋Š” ์ด๋ฆ„์—์„œ๋ถ€ํ„ฐ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด CoT ๊ณผ์ •์— ํŠธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•œ ๋ฐฉ๋ฒ•์ธ๋ฐ, ์ด๋ฅผ ํ†ตํ•ด Self-Consistency ๋ณด๋‹ค ๋”์šฑ ์ •๊ตํ•˜๊ฒŒ ์˜ฌ๋ฐ”๋ฅธ ๋‹ต์„ ๋„์ถœํ•ด ๋‚ผ ์ˆ˜ ์žˆ๋Š” method์ด๋‹ค. ToT๋Š” ํ•˜๋‚˜์˜ CoT ์Šคํ…์—์„œ๋„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‹ต์„ ๋งŒ๋“ค์–ด ๋‚ด๋Š” LM์˜ ํŠน์„ฑ์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ ์Šคํ…๋งˆ๋‹ค ๊ฐ€์ง€๋ฅผ ๋ป—์–ด๋‚˜๊ฐ€๋Š” ํ˜•ํƒœ๋กœ ํŠธ๋ฆฌ๋ฅผ ๊ตฌ์„ฑํ•˜์—ฌ ์ตœ์ ์˜ ๋‹ต์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋„๋ก ํŠธ๋ฆฌ ํƒ์ƒ‰์„ ํ†ตํ•ด ์ตœ์ ์˜ answer๋ฅผ ์ฐพ์•„๊ฐ€๋ฉฐ ์ตœ์ข…์ ์œผ๋กœ ์˜ฌ๋ฐ”๋ฅธ ๋‹ต์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“  ๋ฐฉ์‹์ด๋‹ค. 

 

์ผ๋ฐ˜ prompting, CoT, CoT-SC, ToT์— ๋Œ€ํ•œ ๋น„๊ต (์ถœ์ฒ˜: ToT paper)

 

 ToT์— ๋Œ€ํ•œ ์„ค๋ช…์€ ์—ฌ๊ธฐ์„œ ๋งˆ์น˜๋‚˜, ๋”์šฑ ์ž์„ธํ•œ ๋‚ด์šฉ์ด ๊ถ๊ธˆํ•˜๋‹ค๋ฉด ToT paper ๋ฆฌ๋ทฐ๋ฅผ ํ™•์ธํ•˜๊ธธ ๋ฐ”๋ž€๋‹ค.

 

At the end of positing.. ๐Ÿ

CoT๋ฅผ ๋ณด๋ฉด์„œ ํ•„์ž๋Š” ์ •๋ง์ด์ง€ ๋†€๋ผ์›€์„ ๊ธˆ์น˜ ๋ชป ํ•˜์˜€๋‹ค. ์†”์งํžˆ ๋งํ•ด์„œ ํ•„์ž๋Š” ์ง€๊ธˆ๊นŒ์ง€์˜ model answering ๋ฐฉ์‹์— ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค๊ณ ๋Š” ์ƒ๊ฐ์กฐ์ฐจ ํ•˜์ง€ ๋ชป ํ•˜์˜€๋‹ค. ์•„ ๋ฌผ๋ก  ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค๊ณ  ๋งํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‚˜, ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐฉ์‹์„ ์ƒ๊ฐํ–ˆ์„ ๋•Œ, CoT์™€ ๊ทธ๋ƒฅ ์ถ”๋ก ์—๋Š” ์ƒ๋‹นํžˆ ํฐ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ๋งจ๋•…์— ํ—ค๋”ฉ๊ณผ ์ฐจ๊ทผ์ฐจ๊ทผ ์‹ ์ค‘ํ•˜๊ฒŒ๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅด๋‹ˆ ๋ง์ด๋‹ค! ๐Ÿ™„ CoT ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ๋†€๋ผ์› ์œผ๋‚˜ ์ดํ›„์˜ Self-Consistency, ToT๋Š” ๋†€๋ผ์›€์— ๋†€๋ผ์›€์„ ๋”ํ•ด์ฃผ์—ˆ๋‹ค. ์ด๋ ‡๋“ฏ ๋ชจ๋ธ์˜ ์ˆœ์ˆ˜ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋Š” ๊ฒƒ๋„ ๋ฌผ๋ก  ์ค‘์š”ํ•˜์ง€๋งŒ, CoT ๊ฐ™์ด ํš๊ธฐ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ๋ชจ๋ธ์—๊ฒŒ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•ด ์ฃผ๋Š” ์—ฐ๊ตฌ๋“ค๋„ ์ค‘์š”ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ๋‹ค์‹œ ํ•œ๋ฒˆ ์ด๋Ÿฐ ํš๊ธฐ์ ์ธ ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ•ด ์ฃผ์‹  ๋ชจ๋“  ์—ฐ๊ตฌ์ž๋ถ„๋“ค๊ป˜ ๊ฐ์‚ฌ๋ฅผ ํ‘œํ•˜๋ฉฐ, ํ•„์ž์™€ ๋…์ž๋„ ์—ฐ๊ตฌ๊ณ„์— ํ•œ ํš์„ ๊ธ‹๋Š” ์—ฐ๊ตฌ๋ฅผ ํ•  ์ˆ˜ ์žˆ์„ ๋•Œ๊นŒ์ง€ ๋ชจ๋‘ ์—ด์‹ฌํžˆ ๋‚˜์•„๊ฐˆ ์ˆ˜ ์žˆ๊ธธ ๋ฐ”๋ž€๋‹ค! ๐Ÿ˜‰