์ด์ ์ฃผ๋ณ์์ ChatGPT๋ฅผ ์จ๋ณธ ์ฌ๋๋ณด๋ค ์ ์จ๋ณธ ์ฌ๋์ ์ฐพ๊ธฐ ํ๋ค ์ ๋๋ก ์ฐ๋ฆฌ ์ฌํ์ ๊น์ด ์ค๋ฉฐ๋ค์๋ค. ํ์๋ ์ด ChatGPT์ ๊ดํ ๋ ผ๋ฌธ์ ๋ํด์๋ ์ฌ๋ฌ ๋ฒ ๋ฆฌ๋ทฐ๋ฅผ ํ๋ค. ์ด๋ฐ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ ๋๋ง๋ค ๋๋ผ์ง๋ง ChatGPT๋ ์ ๋ง ํ์ ์ ์ธ ๊ธฐ์ ์ด๋ผ๊ณ ์๊ฐํ๋ค. ํ์ง๋ง, ์ด๋ฐ ChatGPT๋ ์ฌ๋ฌ๊ฐ์ง ํ ์ ๊ฐ์ง๊ณ ์๋๋ฐ, ์๋ฅผ ๋ค์ด ๊ฐ์ฅ ํฐ ๋ฌธ์ ์ ์ค ํ๋์ธ hallucination$($ํ๊ฐ$)$์ด ์๋ค. ์ด hallucination์ ๋ชจ๋ธ์ด ๋ชจ๋ฅด๊ณ ์๋ ์ ๋ณด์ ๋ํ query๊ฐ ๋ค์ด์์ ๋ ์ด query๋ฅผ ๋ชจ๋ฆ์๋ ๋ถ๊ตฌํ๊ณ ์๋ ๊ฒ์ฒ๋ผ ์๋ ์ฌ์ค์ ๋ง๋ค์ด๋ด๋ ์ฆ์์ ์๋ฏธํ๋ค. ๋๋ ์ค์ ๋ก ์๋ ์ ๋ณด์์๋ ๋ถ๊ตฌํ๊ณ ์๋ ๊ฒ์ฒ๋ผ ์ฃผ์ฅํด์ ์ฌ์ฉ์์๊ฒ ์๋ชป๋ ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ๋ ๋ฑ์ ๋ฌธ์ ๋ค์ ๋งํ๋ค. ์ด๋ฌํ ChatGPT์ hallucination์ ๊ฐ์ ํ๊ธฐ ์ํด Microsoft Research์์๋ ์ด ๋ ผ๋ฌธ์ ํตํ์ฌ ๊ฐ์ ๋ฐฉ์์ ๋ด๋์๋ค.
The overview of this paper
ChatGPT ๊ฐ์ large language model$($LLM$)$์ ๋ค์ํ task์ ๋ํด์ ๋ง์น ์ฌ๋๊ณผ ๋น์ทํ๊ฒ ์ ์ฐฝํ ์๋ต๋ค์ ๋ด๋๋๋ค. ํ์ง๋ง, LLM์ ์ค์ธ๊ณ์ ์ ์ฉํ๋ ๊ฒ์ ์์ง ํ๋ ๋ฐ, ์ด๋ ์์ง LLM์ด hallucination์ ์ผ์ผํค๊ณ ์ธ๋ถ ์ง์์ ์ฌ์ฉํ๋๋ฐ ๋ฌด๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ ผ๋ฌธ์์๋ ๋ธ๋๋ฐ์ค LLM์ Plug-and-Play ๋ชจ๋์ ์ฌ์ฉํ์ฌ ์ฆ๊ฐ์ํด์ผ๋ก์จ ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ณ ์ ํ LLM-Augmenter์ ์๊ฐํ์๋ค. ์ด ์์คํ ์ LLM์ด ์ธ๋ถ ์ง์์ ๊ทผ๊ฑฐํ์ฌ ์๋ต์ ์์ฑํ๋๋ก ๋ง๋ค์ด์ฃผ๊ณ , ๋ํ utility function์ผ๋ก ์์ฑ๋ ํผ๋๋ฐฑ์ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ์๋ต์ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋ฐ๋ณต์ ์ผ๋ก LLM์ prompt๋ฅผ ์์ ํ์๋ค.
Table of Contents
1. Introduction
2. LLM-Augmenter
3. Experiments
3-1. Information Seeking Dialog
3-2. WikiQA
4. Ablation Study
1. Introduction
GPT-3์ ChatGPT ๊ฐ์ LLM๋ค์ ์ ๋ง ์ ์ฐฝํ ์ค๋ ฅ๊ณผ ์ฑ๋ฅ์ ๊ฐ์ง๊ฒ ๋์๋ค. ํ์ง๋ง LLM์ ์ง์ ์ธ์ฝ๋ฉ์ ์์ค์ฑ์ด ์๊ณ ์ง์ ์ผ๋ฐํ๋ '๊ธฐ์ต ์๊ณก'์ ์ผ์ผํจ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๋ฌํ ๋ชจ๋ธ์ hallucinate๋ฅผ ์ผ์ผํค๊ณ ์๋ค. ์ด๋ ์ค์ํ task์ ์ ์ฉ๋ ๋, ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ๋ฌธ์ ๊ฐ ์ปค์ง๋ค. ์๋ํ๋ฉด LLM์ ๋ง์ ์์ฉ์ ๋ํ ๋ชจ๋ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ ๊ฒ ๋์ ์ธ๋ถ ์ง์$($external knowledge$)$์ ์ฌ์ฉํด์ LLM์ ๊ฐ์ ํ๊ณ ์ ํ๋ ์๋๋ค์ด ์๊ธฐ๊ธฐ ์์ํ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ธ๋ถ ์ง์๊ณผ PnP module์ ์ฌ์ฉํ ์๋ํ๋ ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ LLM์ ํฅ์์ํค๊ธฐ ์ํ LLM-Augmenter์ ์๊ฐํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ $q$๊ฐ ์ฃผ์ด์ง๋ฉด, LLM-Augmenter๋ ์ธ๋ถ ์ง์์ผ๋ก๋ถํฐ ์ฆ๊ฑฐ๋ฅผ ์ฐพ๊ณ , ๊ด๋ จ๋ context๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ๊ฒฐ ์ง์์ผ๋ก์จ ์ฆ๊ฑฐ๋ฅผ ํ๊ณ ํ ๋ง๋ ๋ค. ๊ทธ๋ฆฌ๊ณ evidence chain์ ๋ง๋ค๊ธฐ ์ํด ์ถ๋ฆฌ๋ฅผ ์ํํ๋ค. ๊ทธ ๋ค์์ LLM-Augementer๋ ์ธ๋ถ ์ง์์ ๊ทผ๊ฑฐํ ํ๋ณด์ ์๋ต์ ์์ฑํ๊ธฐ ์ํด ChatGPT์ ๋ํ ๊ตฌ์ฒดํ๋ ์ฆ๊ฑฐ๋ฅผ ํฌํจํ๋ prompt๋ฅผ ์ฌ์ฉํด์ ๊ณ ์ ๋ LLM์ ์ง๋ฌธํ๋ค. LLM-Augmenter๋ ํ๋ณด์ ์๋ต์ ๋ํด ์ฆ๊ฑฐ๋ฅผ haluucinateํ๋์ง ์ ํ๋์ง๋ฅผ ํ์ธํ๊ณ ์ ์ฆํ๋ค. ๋ง์ผ ๊ทธ๋ ๋ค๋ฉด, LLM-Augmenter๋ ํผ๋๋ฐฑ ๋ฉ์์ง๋ฅผ ์์ฑํ๋ค. ์ด ๋ฉ์์ง๋ ChatGPT์ ์ง๋ฌธํ๊ธฐ ์ํ prompt๋ฅผ ์์ ํ๋๋ฐ ์ฌ์ฉ๋๋ค. ์ด๋ฌํ ํ๋ก์ธ์ค๋ ํ๋ณด์ ์๋ต์ด ๊ฒ์ฆ์ ํต๊ณผํด์ ์ฌ์ฉ์์๊ฒ ๋ณด๋ด์ง ๋๊น์ง ๋ฐ๋ณต๋๋ค.
2. LLM-Augmenter
LLM-Augmenter์ architecture๋ ๋ค์์ ๊ทธ๋ฆผ 2์ ๋ฌ์ฌ๋์ด ์๋ค. LLM-Augmenter๋ ์ธ๋ถ ์ง์๊ณผ ์๋ํ๋ ํผ๋๋ฐฑ์ ์ฌ์ฉํด์ fixed LLM์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ PnP module ์ธํธ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง LLM-Augmenter๋ hallucination ๊ฐ์ ์์ฑ ๋ฌธ์ ๋ฅผ ์ํ์ํจ๋ค.
๋ ผ๋ฌธ์์๋ ์ฌ๋๊ณผ ์์คํ ๊ณผ์ ๋ํ๋ฅผ Markov Decision Process$($MDP$)$์ฒ๋ผ ํํํ๊ธฐ ์ํด $(S, A, P, R, \gamma)$ ์ด๋ ๊ฒ 5๊ฐ์ ํํ๋ก ๋ํ๋ด์๋ค. ๊ฐ๊ฐ์ ํํ์ $S$๋ ์ํ, $A$๋ ํ๋, $P$๋ ๋ณํ ํ๋ฅ , $R$์ ๋ณด์, $\gamma$๋ ํ ์ธ ์ธ์์ด๋ค:
- $S$: Working Memory์ ์ ์ฅ๋์ด ์๋ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ ๋ฌดํ ๊ฐ์ ๋ํ ์ํ ์ธํธ์ด๋ค.
- $A$: ์ ์ฑ $($Policy$)$๊ฐ ์คํํ ์ก์ ์ ์ธํธ์ด๋ค. ์ฌ๊ธฐ์๋ $(1)$์ธ๋ถ ์ง์์ผ๋ก๋ถํฐ ์ฆ๊ฑฐ๋ฅผ ํ๊ณ ํ๊ฒ ํ๋ Knowledge Consolidator ์ ์ธ๊ณผ $(2)$ํ๋ณด ์๋ต์ ์์ฑํ๊ธฐ ์ํ prompt engineering ์ ์ธ์ด ์๋ค.
- $P(s'|s, a)$๋ ์ํ $s$์์ ํ๋ $a$์ด ์ํ๋ ํ ์๋ก์ด ์ํ $s'$์ ์ง์ ํ๋ ๋ณํ ํ๋ฅ ์ด๋ค.
- $R(s, a)$๋ ์ํ $s$์์ ํ๋ $a$๋ฅผ ์ทจํ ํ์ ์ป์ด์ง๋ ์ธ๋ถ ๋ณด์์ด๋ค.
- $\gamma \in (0, 1]$์ ํ ์ธ ์ธ์์ด๋ค.
์ด์ LLM-Augmenter์ ๊ตฌ์กฐ์ ๋ํด์ ๋ ์์ธํ๊ฒ ์์๋ณด๋๋ก ํ์.
2-1. Working Memory
์ด ๋ชจ๋์ ๋ํ์์ ๋ชจ๋ ํ์์ ์ธ ์ ๋ณด๋ค์ ์บก์ฒํ๋ ๋ํ ์ํ๋ฅผ ๋ค์ซ๋๋ค. ์ํ๋ $(q, e, o, u, f, h_{q})$ ์ด๋ ๊ฒ 6๊ฐ์ ํํ์ ์ฌ์ฉํด์ ํํํ๋ค:
- $q$๋ ํ์ฌ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ
- $e$๋ $q$์ ๋ํ ์ฆ๊ฑฐ. Knowledge Consolidator์ ์ํด ์ธ๋ถ ์ง์์ผ๋ก๋ถํฐ ๊ตฌ์ฒดํ ๋.
- $o$๋ LLM์ด ์์ฑํ $q$์ ๋ํ ํ๋ณด์ ์๋ต๋ค์ ์ธํธ์ด๋ค.
- $u$๋ ๊ฐ ์์ $o$๋ฅผ ํ๊ฐํ๋ utility์ด๊ณ , $f$๋ utility๋ก๋ถํฐ LLM์ ํฅ์์ํค๊ธฐ ์ํ ํผ๋๋ฐฑ์ด๋ค. $u$์ $f$ ๋์ Utility module์ ์ํด ์์ฑ๋๋ค.
- $h_{q}$๋ $q$ ์ด์ ์ ๋ํ ํ์คํ ๋ฆฌ์ด๋ค.
์ฌ์ฉ์ ์ฟผ๋ฆฌ $q$๊ฐ ์ฃผ์ด์ง๋ฉด, LLM-Augmenter๋ ์๋ต์ ์์ ํ๊ธฐ ์ํด ์ฌ๋ฌ ๋ฒ์ ๋ฐ๋ณต์ ์ํํ๋๋ฐ, ๊ฐ ๋ฐ๋ณต์ ์ฆ๊ฑฐ, ํผ๋๋ฐฑ, utility์ ๊ธฐ๋ฐํด์ ์๋ต์ ์์ ํ๋ค. ์ด ๊ณผ์ ์ด ๊ทธ๋ฆผ 1์์ ์ฒ๋ผ ์ต์ข ์๋ต์ ์ฌ์ฉ์์๊ฒ ๋ณด๋ด๊ธฐ ์ ๊น์ง ๋ฐ๋ณต๋๋ค.
2-2. Policy
์ด ๋ชจ๋์ ๊ฐ์ฅ ์ต์ ์ ์์ธก ๋ณด์ $R$์ ๋ด๋๋ ๋ค์ ์์คํ ํ๋์ ์ ํํ๋ค. ์ด๋ฌํ ํ๋์๋ ๋ค์์ ๊ฒ๋ค์ด ์๋ค.
- ์ธ๋ถ ์ง์์ผ๋ก๋ถํฐ $q$์ ๋ํ ์ฆ๊ฑฐ $e$๋ฅผ ์ป์
- ํ๋ณด์ ์๋ต์ ์์ฑํ๊ธฐ ์ํด LLM์ ๋ถ๋ฌ์ด
- Utility Module์ด ๊ฒ์ฆ์ ํจ์คํ๋ฉด user์ ์๋ต์ ๋ณด๋
์ ์ฑ ์ ์์ ์ ์๋ ๊ท์น์ ์ฌ์ฉํ๊ฑฐ๋ ์ฌ๋-์์คํ ์ํธ์์ฉ์์ ํ์ต๋จ์ผ๋ก์จ ๊ตฌํ๋ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ ํ์ต ๊ฐ๋ฅํ ์ ์ฑ $\pi$๋ฅผ $\theta$์ ์ํด ํ๋ผ๋ฏธํฐํ๋ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ฒ๋ผ ๊ตฌํํ ์ ์๋ค. $\pi_{\theta}$๋ ๊ฐํ๋ฅผ ์ฌ์ฉํด์ ์์ธก ๋ณด์์ ์ต๋ํํ ์ ์๋ค:
๋ ผ๋ฌธ์์๋ pre-trained model์ ์ฌ์ฉํ์ฌ $\pi$๋ฅผ ๊ตฌํํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์์๋ด์๋ค. ์ด๊ฒ์ ๋ค์๊ณผ ๊ฐ์ ์ด์ ์ ์ค๋ค.
- pre-trained model์ ์ฉ๋ leverage
- fine-tuning์ ํตํด ์ถ๊ฐ์ ์ ๋ณด ํฌํจ
์ ์ฑ ์ ํตํ ํ์ต์ ์ฌ๋๊ณผ ๋จธ์ ๊ฐ์ ์ํธ์์ฉ์ด ๋ง์ ์๋ฐ์ ์๋ค. ๋ฐ๋ผ์ ์ด๋ ๋ง์ ๋น์ฉ์ ๋ถ๋ฌ์ผ์ผํค๊ธฐ๋ ํ๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์ฑ ํ์ต์ ๋ค์๊ณผ ๊ฐ์ 3๊ฐ์ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋ค.
- ๊ท์น ๊ธฐ๋ฐ ์ ์ฑ ์ผ๋ก๋ถํฐ bootstrap
- ์ฌ์ฉ์ ์๋ฎฌ๋ ์ดํฐ์ ํจ๊ป ํ์ต. LLM-Augmenter์ ์ ํจํ ์๋ต์ Utility module์ ํ๊ฐ๋์ ํ์ต ์์๋ก ์ฌ์ฉ๋ ์ ์์ → self-inprove
- LLM-Augmenter๋ ์ ์ฑ ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ฌ๋ ์ฌ์ฉ์์ ํจ๊ป ์ํธ์์ฉํ๋ค.
์ ์ฑ ์ธ์๋ LLM-Augmenter์ ๋ค๋ฅธ ํ์ต ๊ฐ๋ฅํ ๋ชจ๋์ ๋๊ฐ์ ํ์ต ๋ฉ์๋๋ฅผ ์ฌ์ฉํด์ ์ต์ ํ๋ ์ ์๋ค.
2-3. Action Executor
์ด ๋ชจ๋์ ์ ์ฑ ์ ์ํด ์ ํ๋ ํ๋์ ์ํํ๋ค. ์ด๊ฒ์ Knowledge Consolidator์ Prompt Engine ์ด๋ ๊ฒ 2๊ฐ์ ์์๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
Knowledge Consolidator LLM์ด ์ธ๋ถ ์ง์์ ์ฌ์ฉํด์ ์๋ต์ ๊ทผ๊ฑฐ๋ฅผ ๋์ hallucination์ ์ํํ๋๋ก ๋์์ค๋ค. Knowledge Consolidator๋ ๋ค์์ 3๊ฐ์ ๋ชจ๋๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- knowledge retriever
- entity linker
- evidence chainer
retriever๋ $q$์ $h_{q}$์ ๊ธฐ๋ฐํด์ ๊ฒ์ ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ๊ณ ๋ค์ํ ์ธ๋ถ ์ง์ ์์ค์์ raw evidence๋ฅผ ๋์ฐพ๋๋ค.
์ด๋ ๊ฒ ๋์ฐพ์์ง raw evidence๋ ๊ฐ๋ ๋ถ์์ ํ๊ณ ์ก์์ ํฌํจํ๊ณ ์๊ธฐ๋ ํ๋ค. ๋ฐ๋ผ์ entity linker๋ ์ฐ๊ด๋ context๋ฅผ ์ฐ๊ฒฐํด์ raw evidence๋ฅผ ํ์กฑํ๊ฒ ํด์ค๋ค. ๊ทธ ๋ค์์ chainer๋ ๋ถํ์ํ evidencer๋ฅผ ๊ฐ์ง์น๊ธฐ ํด์ค๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๊ฐ์ฅ ์ฐ๊ด๋์ด ์๋ query๋ฅผ ์ป๊ฒ ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ตฌ์ฒดํ๋ evidence $e$๋ Working Memory๋ก ๋ณด๋ด์ง๋ค. ๊ทธ๋ฆผ 1์์ ๊ตฌ์ฒดํ๋ ์ฆ๊ฑฐ์ ์์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
์ฌ์ฉ์
Prompt Engine $q$์ ๋ํ ์๋ต $o$๋ฅผ ์์ฑํ๊ธฐ ์ํด LLM์ ์ง๋ฌธํ๋ prompt๋ฅผ ์์ฑํ๋ค. prompt๋ task ์ง์นจ, ์ฌ์ฉ์ ์ฟผ๋ฆฌ $q$, ๋ํ ๊ธฐ๋ก $h_{q}$, Knowledge Consolidator์์ ์ฌ์ฉํ ์ ์๋ ๊ฒฝ์ฐ ์ฆ๊ฑฐ $e$, Utility module์์ ์ฌ์ฉํ ์ ์๋ ๊ฒฝ์ฐ ํผ๋๋ฐฑ $f$๋ก ๊ตฌ์ฑ๋ ํ ์คํธ ๋ฌธ์์ด์ด๋ค.
2-4. Utility
ํ๋ณด์ ์๋ต $o$๊ฐ ์ฃผ์ด์ง๋ฉด Utility module์ task-specificํ utility function์ ์ฌ์ฉํด์ utility ์ ์ $u$์ ๊ทธ์ ์์ํ๋ ํผ๋๋ฐฑ $f$๋ฅผ ์์ฑํ๋ค.
์ด๋ฌํ utility function์ ์ฌ์ฉ์ ์์ธก ๋๋ ํน์ ํ ๋น์ฆ๋์ค ์๊ตฌ์ ํจ๊ป LLM ์๋ต์ ์ ๋ ฌ์ ์ ๊ทผํ๋ค. ์๋ฅผ ๋ค์ด, information seeking dialog์์ ๋ชจ๋ LLM์ ์๋ต๋ค์ ์๋ชป๋๊ฑฐ๋ ๋ถ์ ํํ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ ํผํ๊ธฐ ์ํด ์ง๋์น๊ฒ ์ธ๋ถ ์ง์์ ๊ทผ๊ฑฐ๋ฅผ ๋๊ณ ์๋ค. ์์์ ์์ฝ ๋ํ์์ LLM ์๋ต์ ๋ํ์ ์ด์ด์ผ ํ๊ณ ์ฌ์ฉ์๊ฐ ์์ฝ ์ ์ฐจ๋ฅผ ํตํด ์ผ์ ์ํ์์ ๋ํํ ๋ off-topic์ด ๋์ง ์๋๋ก ๋์์ฃผ๊ณ ์๋ค. ์ฌ๊ธฐ์๋ ๋ ๊ฐ์ง ์ ํ์ utility function์ด ์๋ค.
- Model-based utility function: ์๋ต์ ์๋ก ๋ค๋ฅธ ์ฐจ์์์ ์ ํธ๋ ์ ์๋ฅผ ๋งค๊น
- Rule-based utility function: ์๋ต์ด ํน์ ํ ๊ท์น์ ๋ฐ๋ฅด๋์ง๋ฅผ ์ธก์
๊ฒ๋ค๊ฐ, ๋ ผ๋ฌธ์์๋ utility function์ ์ ๋ณด์ ์ด๊ณ ์คํ ๊ฐ๋ฅํ ํผ๋๋ฐฑ์ ์์ฑํ ์ ์๊ฒ ํด์ LLM์ด ๋ ๋์ ์๋ต์ ๋ด๋์ ์ ์๋๋ก prompt๋ฅผ ์์ ํ์๋ค. ๊ทธ๋ฆผ 1์์์ฒ๋ผ utility function์ ํผ๋๋ฐฑ์ ์์ฑํ๋ค. ์ด๋ฌํ utility function์ $\psi$์ ์ํด ํ๋ผ๋ฏธํฐํ๋ ํ ์คํธ ์์ฑ ๋ชจ๋ธ $Q$์ด๊ณ , seq2seq ๋๋ auto-regression LM์ฒ๋ผ ๊ตฌํ๋ ์ ์๋ค. ์ด ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ์ ์ฟผ๋ฆฌ $q$, ์ฆ๊ฑฐ $e$, ํ๋ณด์ ์๋ต $o$, ๋ํ ํ์คํ ๋ฆฌ $h_{q}$๊ฐ ์ฃผ์ด์ง๋ฉด ํผ๋๋ฐฑ ํ ์คํธ $f$๋ฅผ ๋ค๋ฆ๊ณผ ๊ฐ์ด ์์ฑํ๋ค.
$f = Q_{\psi}(q, e, o, h_{q})$
๊ทธ ๋์ ์, LLM๊ณผ rule-based ์์ฐ์ด ์์ฑ๊ธฐ๋ ํผ๋๋ฐฑ ์์ฑ์ ์ฌ์ฉ๋ ์ ์๋ค.
3. Experiments
๋ ผ๋ฌธ์์๋ information seeking dialog์ Wiki QA ๋ฐ์ดํฐ์ ์ ๋ํด์ ์คํ์ ์งํํ์๋ค. ๋ฐ์ดํฐ์ ์ ๊ฐ๊ฐ์ task์ ๋ํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ์งํํ์๊ณ , ์ด ๋ถ๋ถ์ ๋ํด์๋ ์์ธํ ๋ค๋ฃจ์ง ์๋๋ก ํ๊ฒ ๋ค. Experiment setup์ ๋ํด์๋ ์์ธํ ๋ค๋ฃจ์ง ์๊ฒ ์ง๋ง, Utility์ ๋ํด์๋ ํ ๋ฒ ์ง๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ๋ค.
Utility Information seeking dialog์ Wiki QA์ ๋ํ Utility๋ ๊ฑฐ์ ์ฐจ์ด๊ฐ ์์ผ๋ฏ๋ก ํ ๊ฐ์ง์ ๋ํด์๋ง ์ค๋ช ํ๋๋ก ํ๊ฒ ๋ค. ์ด task์ ๋ชฉํ๋ ์ผ๊ด์ฑ ์๊ณ ๋ ผ๋ฆฌ ์ ์ฐํ๊ณ ์ธ๋ถ ์ง์์ ๊ทผ๊ฑฐ๋ฅผ ๋ context๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์์ฑ๋ ์๋ต์ด ๊ตฌ์ฒดํ๋ ์ฆ๊ฑฐ์ ๊ทผ๊ฑฐ๋ฅผ ๋ ๊ฑด์ง๋ฅผ ํ์ธํ๊ฒ ์ํด utility score์ธ Knowledge F1์ ์ฌ์ฉํ์๋ค. ์ด ์ ์๋ Knowledge Consolidator์ ์ํด ํตํฉ๋๊ฑฐ๋ golden ์ง์์ผ๋ก ์ ๊ณต๋๋ ์์ธก๊ณผ ์ฆ๊ฑฐ ๊ฐ์ ์ค๋ณต์ ์ธก์ ํ๋ค. ํผ๋๋ฐฑ ์์ฑ์ template-based ์์ฐ์ด ์์ฑ๊ธฐ๋ฅผ ์ฌ์ฉํด์ ์ฑ์ทจํ ์ ์๋ค. ๊ฒ๋ค๊ฐ, ๋ ผ๋ฌธ์์๋ ChatGPT๋ฅผ utility function์ผ๋ก ์ฌ์ฉํ์๋๋ฐ, ์ด๋ ChatGPT๊ฐ ํ๋ณด์ ์๋ต์ ํ๊ฐํ๊ณ ์ด๋ฅผ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋๋ก ์ ๋ํ์ฌ ํผ๋๋ฐฑ์ ์์งํ๋ self-criticism์ด๋ค.
3-1. Information Seeking Dialog
๋ค์์ ๋ ํ๋ information seeking dialog์ ๊ฒฐ๊ณผ์ด๋ค.
ํ๊ฐ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
The impact of using external knowledge ํ 1๊ณผ 2์์ ๋ณด์ฌ์ฃผ๋ ์คํ ๊ฒฐ๊ณผ๋ ์์ ๊ฐ๋ค. ๋ ผ๋ฌธ์์๋ ChatGPT๊ฐ zero-shot ํ๊ฒฝ์์๋ ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ์์์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, golden knowledge๋ฅผ ์ ํ๊ฒ ๋๋ฉด ์ฑ๋ฅ์ ๋๋ผ๋งํฑํ๊ฒ ํฅ์๋์๋ค. ์ด๊ฒ์ LLM์ ํ๋ผ๋ฏธํฐ๋ค์ ๊ฑฐ๋ํ ์์ ์ผ๋ฐ ์ง์๋ค์ ๋ํด์ ์ธ์ฝ๋ํ ์ ์๋ ๋ฐ๋ฉด, ๋์ฑ ๊ตฌ์ฒด์ ์ธ ์ง์์ผ๋ก๋ถํฐ ์ด๋์ ๋ณผ ์ ์์์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์ ์คํ์ LLM์๊ฒ task-specificํ ์ง์์ ์ ๊ณตํด์ฃผ๋ ๊ฒ์ด ๋ชจ๋ธ์ด ์์ฑํด๋ธ ์๋ต์ ์ ์ฐฝ์ฑ๊ณผ ์ ๋ณด์ฑ์ ์์ง ์๊ณ hallucination์ ์ํํ ์ ์๋๋ก ๋์์ค์ ๋ณด์ฌ์คฌ๋ค.
The impact of using automated feedback ํ 1๊ณผ 2์์ ๋ํ๋์๋ ๊ฒ์ฒ๋ผ golden knowledge ์ธํ ์ ์ฌ์ฉํ๋ ๊ฒ์ ๊ฒฐ๊ณผ๋ Utility module๋ก๋ถํฐ ํผ๋๋ฐฑ์ ํฌํจ์ํค๋ ๊ฒ์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด์ ๋น์ทํ๊ฒ, Knowledge Consolidator๋ก๋ถํฐ ์ ๊ณต๋ ์ฆ๊ฑฐ๋ฅผ ์ฌ์ฉํ๋ฉด ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์จ๋ค.
The impace of using trainable Prolicy ๊ทธ๋ฆผ 3์ ๊ณ ๊ฐ ์๋น์ค task์ ๋ํ LLM-Augmenter์ ํ์ต ์ปค๋ธ๋ฅผ ๋ณด์ฌ์ค๋ค. ์ค์ ์ฌ์ฉ์๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์์งํด์ผ ํ๋ ์ธ๋ถ ๋ณด์์ด ์๊ธฐ ๋๋ฌธ์ ์ฌ๊ธฐ์ ๋ณด์ $R$์ KF1 utility function์ผ๋ก ์ ์ํ๋ค. ์ด๊ฒ์ LLM-Augmenter์ ๊ฐํ ํ์ต ์ธํ ์์ LLM-Augmented์ ํจ๊ณผ๋ฅผ ์ค๋ช ํด์ค๋ค. ์ด๋ฌํ ์ํธ์์ฉ์ ํตํด LLM-Augmenter๋ ๋ณด์์ ์ต๋ํํ๊ธฐ ์ํด ํจ๊ณผ์ ์ผ๋ก ๋ค์ ์์คํ ํ๋์ ์ ํํ ์ ์๊ฒ ๋๋ค. ์ด๊ฒ์ ์์คํ ์ด ์ ์ฐฝํ๊ณ ์ ๋ณด์ฑ์๋ ์๋ต์ ๋ด๋ ๋ฐ๋ฉด์ hallucination์ ์ค์ด๋๋ฐ ๋์์ ์ค๋ค.
์ถ๊ฐ์ ์ผ๋ก ChatGPT์ LLM-Augmenter์ ์ฌ์ฉํ๊ณ ์ ์ฌ์ฉํ๊ณ ์ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ๋ค์์ ํ 3๊ณผ ๊ฐ๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ChatGPT ํผ์ ์๋ ๊ฒ๋ณด๋ค LLM-Augmenter๋ฅผ ๋ ์ ํธํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ์ ์ฉ์ฑ๊ณผ ์ธ๊ฐ์ฑ ์ธก๋ฉด์ ์๊ฐํ์๊ธฐ ๋๋ฌธ์ด๋ค.
3-2. WikiQA
์ด๋ ๊ฒ ํด์ Information seeking dialog์ ๋ํด์ ์์๋ณด์๊ณ , ์ด์ WikiQA์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ์์๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ค์์ ํ 4๋ฅผ ๋ณด๋ฉด WikiQA์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์์ํ๋ ๊ฒ์ฒ๋ผ closed-book ๋ชจ๋ธ ํผ์๋ ๋งค์ฐ ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์๋ฌ๊ฐ ๋ฐ์ํ๋ ๊ฒฝ์ฐ์ ๋ํด์ ์กฐ์ฌ๋ฅผ ํด๋ณธ ๊ฒฐ๊ณผ hallucination์ด ๊ฐ์ฅ ๋ง์๊ณ , ๊ทธ ๋ค๋ก ChatGPT๊ฐ ๋ตํ์ง ๋ชปํ ๊ฒฝ์ฐ๋ ๋ง์๋ค. ๋ ผ๋ฌธ์์๋ DPR๊ณผ CORE๋ก๋ถํฐ ์ป๊ฒ ๋ ์ง์์ด F1 score๋ฅผ ์๋นํ ํฅ์์์ผฐ์์ ๋ณด์ฌ์คฌ๋ค. closed-book ChatGPT ๋ชจ๋ธ์์ ๋ณด์ฌ์ค ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ธ๋ถ ์ง์์ ์ฌ์ฉํ์ฌ LLM์ ํฅ์์ํค๋ ๊ฒ์ ์ค์์ฑ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ๋ฆฌ๊ณ information seeking dialog์ ๋ง์ฐฌ๊ฐ์ง๋ก ์๋ํ๋ ํผ๋๋ฐฑ์ ์ฌ์ฉํด์ ChatGPT๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฅ์์ํค๊ณ ์๋นํ ํฅ์๋ recall๊ณผ F1 score๋ฅผ ๋ณด์ฌ์ค์ ์ ์ ์๋ค.
WikiQA์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด DPR๋ณด๋ค CORE์ ์ฌ์ฉํ๋ ๊ฒ์ด, ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ง ์๋ ๊ฒ๋ณด๋ค ํผ๋๋ฐฑ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
4. Ablation Study
๋ ผ๋ฌธ์์๋ knowledge consolidator์ ์ด์ฉ์ ๋ํ ๋ค์ํ ์ ์ฑ ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ablation study๋ฅผ ์งํํ์๋ค.
๋ค์์ ๊ทธ๋ฆผ 4๋ ์ ์ฑ ์ ์๋ก ๋ค๋ฅธ 3๊ฐ์ ๋ณํ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ฒฐ๊ณผ๋ self-ask ์ ์ฑ ์ด no-knowledge consolidator๋ณด๋ค ์๋นํ ๋์ KF1 score๋ฅผ ์ป์ ์ ์์์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, always-use ์ ์ฑ ์ด ๊ฐ์ฅ ์ข์ KF1 score๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ํ๋ จ ๊ฐ๋ฅํ ์ ์ฑ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ธ๋ถ ์ง์์ ์ฌ์ฉํ ์๊ธฐ๋ฅผ ํ์ตํด์ผ ํจ์ ๋ณด์ฌ์ค๋ค.
- no-knowledge consolidator
- self-ask
- always-use
๊ฒ๋ค๊ฐ LLM-Augmenter์ ๋ํ ์๋ก ๋ค๋ฅธ ์ ํ์ ํผ๋๋ฐฑ์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 5์ ๋ํ๋ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ self-criticism์ด ๋์ฑ ๊ทผ๊ฑฐ์ ๊ธฐ๋ฐํ๋ ์๋ต์ ๋ด๋์ ์๋ต์ ํ๋ฆฌํฐ๋ฅผ ํฅ์์์ผ์ค์ ๋ณด์ฌ์คฌ๋ค. ์ฑ๋ฅ์ rule-based ํผ๋๋ฐฑ๊ณผ ๋น์ทํ์ง๋ง ๋์ฑ ๋ํ ์ผํ ์ ์์ ์ ๊ณตํด์ค๋ค. ๋ ผ๋ฌธ์์๋ self-criticism์ด ๋ณต์กํ task์ ๋์ฑ ๋์์ด ๋จ์ ๋ณด์ฌ์คฌ๋ค.
๋ ผ๋ฌธ์์๋ utility function์ ์ํฅ๊ณผ LLM-Augmenter์ ์ฑ๋ฅ์์ feedback-augmented prompting์ ์ํฅ์ ์ดํดํ๊ธฐ ์ํด, ๊ฐ๊ฐ์ ์์๋ค์ ์ฌ์ฉํ๊ฑฐ๋ ์ฌ์ฉํ์ง ์์์ผ๋ก์จ ๋ถ์์ ์ํํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 5๋ ๊ฐ ๋ณํ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ utility function๊ณผ feedback-augmented prompting์ ์กฐํฉ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2302.12813