한 단계, 한 단계씩 인간처럼 생각해보자! 🧠🤔

Insight 😎

한 단계, 한 단계씩 인간처럼 생각해보자! 🧠🤔

Cartinoe 2023. 8. 3. 18:05

Let's think step-by-step! 🪜

포스팅의 제목과 이 섹션의 제목을 봤을 때 의아하게 생각하는 사람들이 있을 것이다. '아니 이 사람, NLP 관련 얘기 잘만 하다가 갑자기 무슨 뚱딴지같은 소리래? 🤨' 충분히 그럴 수 있다! 하지만, NLP 관련 논문을 읽어봤거나 최신 method들에 대해 잘 알고 있는 사람이면 필자가 무슨 소리를 하고 싶어 하는 것인지를 알 것이라 생각한다. 왜냐하면 이 섹션의 제목이 'Let's think step-by-step'은 이 포스팅을 관통하는 문장이자, 유명한 논문에서 사용된 method이기 때문이다. 이게 무슨 소리냐구요? 궁금하시다면, LM이 사람과 비슷한 방식으로 사고를 해서 문제를 해결하게 하고자 한 method들에 대해 알아보는 이번 포스팅을 끝까지 읽어주시면 될 것 같습니다! 😊 바로 시작해 보도록 하겠습니다!

The differences between human and LM 🆚

LM과 사람의 가장 큰 차이점은 무엇일까? 물론, 엄청나게 많은 차이점이 존재한다. 학습 방식도 다르고, 학습 양도 다르고, 속도도 다르고, ... 정말 셀 수도 없이 많은 차이점을 가지고 있는데, 필자가 생각하는, 아니 앞으로 이 포스팅에서 소개할 논문들의 저자들이 생각한 가장 큰 차이점은 생각하는 방식에 있다고 주장하였다. (필자도 비슷한 생각을 가지고 있다!) 생각하는 방식? 그게 어떻게 다르다는 거지? 이런 의문이 들 수 있을텐데, 하나의 예시를 들어 이를 설명해보고자 한다.

철수가 마트에 가서 사과 3개, 바나나 7개, 수박 2개를 사왔다. 각각 사과는

300원, 바나나는 200원, 수박은 500원 일 때, 철수는 얼마를

지불하였는가?

자, 위와 같은 수학 문제가 있다고 가정해보자. 우리의 똑똑한 독자분들은 이 정도 계산은 식은 죽 먹기로 문제를 보자마자 해결하였을 테지만, 그 짧은 순간에도 우리의 뇌는 몇 가지 단계를 거쳐서 문제를 해결하였을 것이다. 자, 확인해 보자.

🍎의 개수가 3, 하나당 가격이 300원 → 3 × 300 = 900원
🍌의 개수가 7, 하나당 가격이 200원 → 7 × 200 = 1,400원
🍉의 개수가 2, 하나당 가격이 500원 → 2 × 500 = 1,000원
이거를 다 더해서 900 + 1,400 + 1,000 = 3,300원
Answer: 3,300원 !!

이와 같이 우리의 뇌는 아무리 사소한 문제에 대해서도 이렇게 여러 가지 단계를 거쳐서 결론을 도출하게 된다. 그리고 이 과정을 통해 더욱 정교하게 문제를 해결할 수 있다. 그렇다면 LM은 어떻게 생각할까? 물론 그 속내를 완벽하게 알 수는 없지만, LM은 보통 다음과 같은 답변을 내놓게 된다.

'3,300원 입니다.'

이쯤 되면 사람과 LM의 차이점에 대해서 알 수 있을 것이라고 생각한다. 🫡 바로 그것은 문제를 해결하는 방식이다! 사람은 하나의 큰 문제를 작은 문제 여러 개로 쪼개서 해결하는 반면에, LM은 하나의 큰 문제를 그냥 통째로 해결하려고 한다. 어떤 방식이 더 이로울까? 당연히 전자의 방식이다! 쉬운 문제를 많이 푼다고 해서 큰 어려움이 있는 것은 아니지만, 어려운 문제를 푸는 것은 그에 따른 노력을 필요로 하기 때문이다. 😥

이렇듯 사람과 LM 사이에는 생각 부분에서 사소해 보이지만, 큰 차이점을 가지고 있다. 이번 포스팅에서는 이렇게 사람과 비슷한 사고방식을 통해 문제를 해결해보고자 한 method들에 대해 알아보려고 한다. 😊

Chain-of-Thought 🧠⛓️

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)

처음으로 소개해보고자 하는 논문은 사람의 생각 과정을 생각의 고리 즉, 'Chain-of-Thought'라고 지칭을 하며 method 또한 똑같은 이름을 가지는 CoT(Chain-of-Thought)이다. CoT는 말 그대로 생각의 고리이며 앞서 예시로 설명했던 문제의 생각 과정을 떠올리면 쉽게 이해가 갈 것이다.

그렇다면 CoT는 어떻게 LM에게 step-by-step 추론을 할 수 있는 능력을 줄 수 있었을까? CoT는 이를 위해 모델의 prompt에 살짝 수정을 가하는 방법을 선택한다. 기존의 prompting이 여러 question과 answer를 example로 주고 마지막에 답을 얻고 싶은 question을 준 뒤에 answer를 출력하는 방식을 사용했다면, CoT prompting은 기존의 question을 example로 주는 것은 똑같이 유지시키고, 대신에 answer에 문제를 step-by-step으로 해결하는 과정을 함께 줌으로써 모델이 step-by-step 추론을 할 수 있게 만들어줬다. 말로만 보면 이해가 잘 안 가니 CoT paper에 있는 그림을 보면서 이해해 보도록 하자! 😚

왼쪽: 기존 prompting. 답만 띡 내놓게 된다. 오른쪽: CoT prompting. step-by-step 추론을 하며 구체적인 풀이과정과 함께 답을 출력한다. (출처: CoT paper)

위의 그림을 보면 알 수 있듯이, CoT reasoning(추론)은 복잡한 문제를 여러 개의 간소화된 문제로 분해하여 해결할 수 있게 도와준다. 그리고 당연하게도 여러 question & answer example을 제공해줘야 하니 few-shot learning이라고 할 수 있다. 😊

그렇다면 CoT reasoning의 실험 결과는 어떠할까? 실험 결과에서도 과연 좋은 모습을 보여줬을까? CoT reasoning의 실험 결과는 살짝 독특한 형태를 보여주었다. 당연히 성능이 좋아지긴 하였으나, 그 성능 향상이 조건부적이었다는 사실을 제외하면 말이다! 😣 다음의 표를 보면 알 수 있듯이, CoT reasoning의 경우 작은 사이즈의 모델에 대해서는 별 효과가 없었으나, 모델의 사이즈가 커지니 좋은 성능을 보여주기 시작하였다. 이로 미루어 보아 'CoT reasoning에는 적당한 사이즈의 모델이 필요한 게 아닐까?'와 같은 가설을 떠올릴 수 있게 된다.

이렇게 완벽해 보이는 CoT도 큰 사이즈의 모델이 아닌 경우에는 별 효과가 없던 것처럼, 또 다른 단점이 존재했는데, 그건 바로 CoT example의 형태에 따라 성능이 또 천차만별로 달라졌다는 점이다. 따라서 아직은 부족한 점이 많긴 하지만, 그럼에도 모델에게 사람과 비슷한 생각 프로세스를 가지게 했다는 것만으로도 충분히 놀라운 시도를 한 논문이었다.

CoT에 대한 설명은 여기서 마치나, 더욱 자세하게 알고 싶다면 CoT paper 리뷰를 확인하길 바란다!

Large Language Models are Zero-shot Reasoners (Kojima et al., 2022)

CoT의 놀라운 결과를 확인한 후, CoT에 대한 관심은 쉽게 사그라들지 않았고, 그 관심은 기존의 Few-shot CoT를 Zero-shot으로 바꾸기까지 이르렀다. 이 논문에서는 Zero-shot CoT에 대해 제안하였는데, 어떻게 가능했던 것일까? 기존의 CoT에서는 few-shot을 통해 여러 CoT example이 주어지면 이를 활용해 CoT reasoning을 할 수 있었던 것인데, 만약 이 example이 주어지지 않는다면? 어떻게 해야 할까? 왠지 어렵게 느껴질 수도 있겠지만, 사실 일반 CoT보다 훨씬 쉬우니 너무 걱정하지 말라! 😮‍💨

이 포스팅의 초반에 했었던 말인 'Let's think step-by-step'을 기억하는가? 초반부에 이 문장이 중요한 method로 사용된 논문이 있다고 설명했는데, 바로 그 논문이 이 논문이다!! 😊 Zero-shot CoT에서는 모델에게 CoT 능력을 부여하기 위해 'Let's think step-by-step'이 한 문장만을 사용한다. 😁 기존의 Few-shot CoT와 Zero-shot CoT를 비교하면 다음과 같다. 정말이지 너무 간단하지 않은가? 물론 성능은 Few-shot에 비해 살짝 떨어지기는 하나, 그럼에도 불구하고 Few-shot CoT에 비해 훨씬 더 간단하다! 🫢

Few-shot CoT vs. Zero-shot CoT (출처: Zero-shot CoT paper)

물론, Zero-shot CoT의 경우 완벽하게 답을 출력하기 위해서는 다음과 같은 한 가지 단계가 더 필요하긴 하다. 하지만 그럼에도 정말 간단한 방식이기에 현재도 Zero-shot CoT는 많이 사용되고 있다.

Zero-shot CoT의 pipeline. 답을 추출하기 위해서는 한 가지 스텝이 더 필요하다. (출처: Zero-shot CoT paper)

Zero-shot CoT에 대한 설명은 여기서 마치나, 더욱 자세한 내용이 궁금하다면 Zero-shot CoT 리뷰를 확인하길 바란다.

Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)

Self-Consistency는 CoT의 결과를 좀 더 개선시키고자 한 method로 majority vote를 사용해 여러 번의 CoT를 하여 가장 많이 나온 answer를 최종 answer로 삼는 방식이다. 이렇게만 얘기를 하면 제대로 이해가 가질 않으니, 예를 들어서 설명해 보도록 하겠다.

CoT는 한 문제를 여러 개의 작은 문제로 나누어서 순차적으로 해결하는 방식이다. 그런데 이때 만약 중간 스텝에서 오답을 내놓게 된다면, 최종 answer는 어떻게 변화할까? 수학 문제로 생각해 보자. 수학 문제에서 중간에 계산 실수가 한 번 발생하면 최종 답은 정답과 다르게 나오게 된다. CoT도 마찬가지이다. 중간에 오답을 내놓게 되면 최종 answer도 정답과는 다른 답을 얻게 된다. 그렇다면 이를 어떻게 해결할 수 있을까? Self-consistency는 여러 번의 CoT를 수행함으로써 나온 다양한 답들 중에서 가장 빈도가 높은 답을 최종 답으로 정하는 방식을 사용하였다. 이렇게 함으로써 좀 더 최적의 답을 얻게 만들고자 한 방식이 Self-consistency이다.

CoT prompting과 Self-consistency의 차이 (출처: Self-Consistency paper)

Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023)

마지막으로 알아볼 method는 Tree-of-Thought이다. ToT는 이름에서부터 알 수 있듯이 CoT 과정에 트리 구조를 활용한 방법인데, 이를 통해 Self-Consistency 보다 더욱 정교하게 올바른 답을 도출해 낼 수 있는 method이다. ToT는 하나의 CoT 스텝에서도 여러 개의 답을 만들어 내는 LM의 특성을 활용하여 각 스텝마다 가지를 뻗어나가는 형태로 트리를 구성하여 최적의 답을 도출할 수 있도록 트리 탐색을 통해 최적의 answer를 찾아가며 최종적으로 올바른 답을 도출할 수 있도록 만든 방식이다.

일반 prompting, CoT, CoT-SC, ToT에 대한 비교 (출처: ToT paper)

ToT에 대한 설명은 여기서 마치나, 더욱 자세한 내용이 궁금하다면 ToT paper 리뷰를 확인하길 바란다.

At the end of positing.. 🏁

CoT를 보면서 필자는 정말이지 놀라움을 금치 못 하였다. 솔직히 말해서 필자는 지금까지의 model answering 방식에 문제가 있다고는 생각조차 하지 못 하였다. 아 물론 문제가 있다고 말하는 것은 아니나, 문제 해결 방식을 생각했을 때, CoT와 그냥 추론에는 상당히 큰 차이가 있다고 생각한다. 맨땅에 헤딩과 차근차근 신중하게는 완전히 다르니 말이다! 🙄 CoT 만으로도 충분히 놀라웠으나 이후의 Self-Consistency, ToT는 놀라움에 놀라움을 더해주었다. 이렇듯 모델의 순수 성능을 올리는 것도 물론 중요하지만, CoT 같이 획기적인 방식으로 모델에게 새로운 능력을 부여해 주는 연구들도 중요하다고 생각한다. 다시 한번 이런 획기적인 연구를 진행해 주신 모든 연구자분들께 감사를 표하며, 필자와 독자도 연구계에 한 획을 긋는 연구를 할 수 있을 때까지 모두 열심히 나아갈 수 있길 바란다! 😉