WebGPT: ์น ๋ธ๋ผ์ฐ์ง์ ํตํ LM์ Factual Accuracy ํฅ์
GPT-3๋ฅผ fine-tune ํ์ฌ text ๊ธฐ๋ฐ์ ์น๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํ์ฌ open-ended ์ง๋ฌธ์ ๋์ฑ ์ ํํ๊ฒ ๋ตํ๋๋ก ํ์๋ค. WebGPT์ ํ๋กํ ํ์ ์ ์ฌ๋์ด ์จ๋ผ์ธ์์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์กฐ์ฌํ๋ ๋ฐฉ๋ฒ์ ๋ณต์ฌํ์๋ค. ์ฌ๊ธฐ์๋ ๊ฒ์ ์ฟผ๋ฆฌ ์ ์ถ ๋ฐ ๋งํฌ ๋ฐ๋ผ๊ฐ๊ธฐ, ์น ํ์ด์ง ์์๋๋ก ์คํฌ๋กค๊ณผ ๊ฐ์ ํ๋์ ํฌํจํ๊ณ ์๋ค. WebGPT๋ ์ ๋ณด์ ์ถ์ฒ๋ฅผ ๋ฐํ๊ธฐ ์ํด ํ์ต๋์๋๋ฐ, ์ด ์ถ์ฒ๋ factual accuracy๋ฅผ ํฅ์์ํค๊ธฐ ์ํ ์ข์ ํผ๋๋ฐฑ์ ์ฝ๊ฒ ์ ๊ณตํด์ค ์ ์๊ฒ ๋ง๋ ๋ค. ์ด์ ๊ฐ์ ๊ณผ์ ์ ํตํด ๋์ฑ ์ ์งํ AI๋ฅผ ๋ง๋ค ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํ์ง๋ง, ์น์ํ์ง ์์ ์ ํ์ ์ง๋ฌธ์ ๋ณต์ฌํด์ค๋ ๋ฌธ์ ๊ฐ์ ๋ฌธ์ ๋ค์ด ๋จ์์๋ค. ๐ข
GPT-3 ๊ฐ์ LM์ ์๋ก ๋ค๋ฅธ ์ฌ๋ฌ ๊ฐ์ง task์ ๋ํด์ ๋งค์ฐ ์ ์ฉํ์ง๋ง, task๊ฐ ๋ถ๋ถ๋ช ํ real-world ์ง์์ ์๊ตฌํ ๋, ์ ๋ณด๋ฅผ 'ํ๊ฐ(hallucinate)'ํ๋ ๊ฒฝํฅ์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, text ๊ธฐ๋ฐ์ ์น๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํ์ฌ GPT-3๋ฅผ ๊ฐ๋ฅด์ณค๋ค. model์๊ฒ๋ open-ended ์ง๋ฌธ๊ณผ ๋ธ๋ผ์ฐ์ ์ํฉ์ ์์ฝ์ด ์ ๊ณต๋๋ฉฐ, "Search...", "Find in page...", "Quote..."๊ณผ ๊ฐ์ ๋ช ๋ น์ ์คํํด์ผ ํ๋ค. ์ด ๋ฐฉ๋ฒ์ผ๋ก, model์ ์นํ์ด์ง๋ก๋ถํฐ ๊ธ์ ์์งํ๊ณ , ์ด๋ฅผ ์ฌ์ฉํด์ ๋๋ต์ ๊ตฌ์ฑํ๋ค.
model์ ์ด์ ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค๊ณผ ๋๊ฐ์ด GPT-3๋ฅผ human feedback & human preference๋ก๋ถํฐ fine-tuneํ์๋ค. text ๊ธฐ๋ฐ์ ๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํด์ ์ง๋ฌธ์ ๋๋ตํ ์ ์๋๋ก ํ๋ ๋ฅ๋ ฅ์ ์ฃผ๋ ์ฌ๋์ demonstration์ ๋ณต์ฌํด์ model์ ํ์ต์ํจ๋ค. ๊ทธ ๋ค์์, reward model$($RM$)$์ ํ์ต์์ผ human preference๋ฅผ ์์ธกํ๊ณ , RL & rejection sampling์ ์ฌ์ฉํด์ human reference์ ๋ํด ์ต์ ํ ์ํค๋ ๋ฐฉ๋ฒ์ ํตํด model์ ๋๋ต์ ๋์์ฑ$($helpfulness$)$์ ์ ํ๋$($accuracy$)$๋ฅผ ํฅ์์์ผฐ๋ค. ๐ฅ
WebGPT์ ์ฌ์ฉ ์์๋ OpenAI์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ๋ฉด ํ์ธํ ์ ์๋ค. ์ฌ๊ธฐ์์ ํ ๋ฒ ํ์ธํด๋ณด๊ธธ ๋ฐ๋๋ค.
ELI5 ๊ฒฐ๊ณผ
WebGPT๋ "Explain Like I'm FIve" subreddit์ผ๋ก๋ถํฐ open-ended ์ง๋ฌธ์ ์คํฌ๋ฉํด์จ ๋ฐ์ดํฐ์ ์ธ ELI5์ ์ง๋ฌธ์ ์๋ตํ๊ธฐ ์ํด ํ์ต๋์๋ค. ์ด๋ฅผ ์ํด ์ด 3๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ํ๋ จ์์ผฐ๋๋ฐ, ๊ฐ๊ฐ ์๋ก ๋ค๋ฅธ ์ถ๋ก ์๊ฐ ์ปดํจํ ์์ฐ์ ์ฌ์ฉํ์๋ค. ๊ฐ์ฅ ๋ฐ์ด๋ ๋ชจ๋ธ์ ์ ์ฌํ ์์ค์ ์ฌ์ค ์ ํ๋๋ก human demonstrator๊ฐ ์์ฑํ ๋ต๋ณ๋ณด๋ค 56% ๋ ์ ํธ๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ๋ชจ๋ธ ํ๋ จ์ ์ฌ์ฉ๋ ๊ฒ๊ณผ ๋์ผํ ์ข ๋ฅ์ demonstration์ด์์ง๋ง human feedback์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๋ต๋ณ์ ๊ฐ์ ํจ์ผ๋ก์จ ์ด๋ฅผ ๋ฅ๊ฐํ ์ ์์๋ค.
TruthfulQA ๊ฒฐ๊ณผ
ํ์ต ๋ถํฌ์์ ๊ฐ์ ธ์จ ์ง๋ฌธ์ ๋ํด ์ต๊ณ ์ ๋ชจ๋ธ์ ๋ต๋ณ์ ํ๊ท ์ ์ผ๋ก human demonstrator๊ฐ ์์ฑํ ๋ต๋ณ๋งํผ ์ฌ์ค์ ์ผ๋ก ์ ํํ๋ค. ํ์ง๋ง, ํ์ต ๋ถํฌ ์ธ์ ์ง๋ฌธ์ ๋ํด์๋ ๋งค์ฐ ์ด๋ ค์ํ๋ค. ์ด๋ฅผ ์กฐ์ฌํ๊ธฐ ์ํด, ๋ชจ๋ธ์ TruthfulQA์ ๋ํด์ ํ๊ฐํด๋ณด์๋ค. TruthfulQA๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ์คํด์ ๊ฐ์ ๊ฒ์ ํฌ์๋๋์ง ์ฌ๋ถ๋ฅผ ํ ์คํธํ๋๋ก ์ค๊ณ๋ ์งง์ ํ์์ ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋ ์ ๋์ ์ธ ๋ฐ์ดํฐ์ ์ด๋ค. ๋๋ต๋ค์ ์ง์ค์ฑ$($truthfulness$)$์ ์ ๋ณด์ฑ$($informativeness$)$ ์๋ฉด์ผ๋ก ์ธก์ ๋๋ค. ์๋ฅผ ๋ค์ด, "I have no comment"์ ๊ฐ์ ๋ฌธ์ฅ์ ์ง์ค์ฑ์ ์์ง๋ง, ์ ๋ณด์ฑ์ ์๋ ๋ฌธ์ฅ์ผ๋ก ๋ถ๋ฅ๋๋ค.
WebGPT๋ TruthfulQA์ ๋ํด GPT-3๋ฅผ ๋ฅ๊ฐํ๊ณ , ๋ณด๋ค ์ ๋ฆฌํ scaling ํน์ฑ์ ๋ํ๋๋ค. ํ์ง๋ง, WebGPT๋ ์ฌ๋๋ณด๋ค๋ ๋ค์ฒ์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋๋ฐ, ์๋ํ๋ฉด ๊ฐ๋ ์ ๋ขฐํ ์ ์๋ ์์ค๋ก๋ถํฐ ์ธ์ฉํด์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ์ค์์ ๋น๋๋ฅผ ์ค์ด๊ธฐ ์ํด ์ ๋์ ํ์ต๊ณผ ๊ฐ์ ๊ธฐ์ ์ ์ฌ์ฉํ์๋ค.
Factual Accuracy ์ธก์
factual accuracy๋ฅผ ํฅ์์ํค๊ธฐ ์ํด feedback์ ์ ๊ณตํ๊ธฐ ์ํด์ ์ฌ๋์ ๋ชจ๋ธ์ด ์์ฑํ ์ฃผ์ฅ์ factual accuracy๋ฅผ ํ๊ฐํ ์ ์์ด์ผ ํ๋ค. ์ด๊ฒ์ ๋งค์ฐ ์ด๋ ค์ธ ์ ์๋๋ฐ, ์๋ํ๋ฉด ๋ชจ๋ธ์ ์ฃผ์ฅ์ ๊ธฐ์ ์ ์ผ ์๋ ์๊ณ , ํธํฅ์ ์ผ ์๋ ์๊ณ , ๋ชจํธํ ์๋ ์๋ค. ์ด์ ๊ฐ์ ์ด์ ๋๋ฌธ์, ๋ชจ๋ธ์๊ฒ ์ ๋ณด์ ์ถ์ฒ๋ฅผ ์๊ตฌํ๋๋ก ํ์๋ค. ์ด๋ฅผ ํตํด, ์ฌ๋์ ๋ชจ๋ธ์ factual accuracy๋ฅผ ๋ชจ๋ธ์ ์ฃผ์ฅ์ด ์ ๋ขฐํ ์ ์์๋งํ ์ถ์ฒ๋ก๋ถํฐ ๋ง๋ค์ด์ง ๊ฑด์ง ํ์ธํ ์ ์์๋ค. ์ด๋ task๋ฅผ ๋์ฑ ๊ด๋ฆฌํ๊ธฐ ์ฝ๊ฒ ๋ง๋ค ๋ฟ๋ง ์๋๋ผ, ๋ ๋ชจํธํ๊ฒ ๋ง๋ค์๋ค. ์ด๊ฒ์ ๋ผ๋ฒจ ์ก์์ ์ค์ด๋๋ฐ ์ค์ํ๋ค.
ํ์ง๋ง, ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ์ฌ๋ฌ ์๋ฌธ์ ๋ ์ค๋ฅด๊ฒ ํ๋ค. ๋ฌด์์ด ์ถ์ฒ๊ฐ ์ ๋ขฐํ ์ ์๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฒ์ผ๊น? ์ด๋ ํ ์ฃผ์ฅ์ด ๋ท๋ฐ์นจ ์์ด๋ ์ถฉ๋ถํ ์ ๋ขฐํ ์ ์๋ ์ฃผ์ฅ์ธ ๊ฑธ๊น? factual accuracy์ ๋ํ ํ๊ฐ์ coherence์ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๊ธฐ๋ถ ์ฌ์ด์ ์ด๋ค ์ ์ถฉ์์ด ์ด๋ฃจ์ด์ ธ์ผ ํ ๊น? ์ด๋ฐ ๊ฒ๋ค์ ๋ชจ๋ ๋ช ํํ ์ ์ํ๊ธฐ ์ด๋ ต๋ค.. ๐ข ๋ ผ๋ฌธ์์๋ WebGPT๊ฐ ์ด๋ฌํ ๋์์ค์ ๋ง์ ๋ถ๋ถ์ ํด๊ฒฐํ๋ค๊ณ ์๊ฐํ์ง ์๋๋ค. ์๋ํ๋ฉด WebGPT๋ ์์ง ๊ธฐ๋ณธ์ ์ธ ์ค์๋ค์ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๐ ํ์ง๋ง, AI ์์คํ ์ ๋ฐ์ ์ด ์ค์ํ ๋งํผ ์ด๋ฌํ ์ ์๋ค๋ ์ค์ํ๋ค๊ณ ์๊ฐํ๋ค. ๋ํ, ํฌ๋ช ์ฑ๊ณผ ๊ฐ์ ์ถ๊ฐ ๊ณ ๋ ค ์ฌํญ์ด ์ค์ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๊ฒฐ๊ตญ, ์ถ์ฒ๋ ๋ชจ๋ธ์ factual accuracy๋ฅผ ์ธก์ ํ๊ธฐ์๋ ์ ํฉํ์ง ์๋ค๋ ๊ฒ์ ์์๋ค. ์ถฉ๋ถํ ์ ๋ฅํ ๋ชจ๋ธ์ ์ฆ๊ฑฐ์ ๋ํ ๊ณต์ ํ ํ๊ฐ๋ฅผ ๋ฐ์ํ์ง ์๋๋ผ๋ ์ฌ๋์ด ์ค๋๋ ฅ์ ์ฐพ์ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ ์์ค๋ฅผ ์ ๋ณํ๋ค. ๋ชจ๋ธ์ด ์๋ํ๋ ๊ฒ์ ๋ณด๋ฉด, ์ด๋ฌํ ๊ฒ์ ๋ํ ์ฌ์ธ์ด ์๋ค.
ํจ์จ์ ์ฌ์ฉ ๋ฐ ํ์ต์ ์ํ
WebGPT๋ ์ผ๋ฐ์ ์ผ๋ก GPT-3์ ๋นํด์ ๋์ฑ ์ง์คํ์ง๋ง$($์๋ชป๋ ์ฃผ์ฅ์ ๋์ฑ ์ ๊ฒ ํจ$)$, ์์ง ๋ช ๊ฐ์ง ๋ฆฌ์คํฌ๋ฅผ ์ ๊ธฐํ๋ค. ์ธ์ฉ์ด ์๋ ๋ต๋ณ์ ์ข ์ข ๊ทธ๋ด ๋ฏํ ๋ถ์๊ธฐ๋ฅผ ๋ง๋ค์ด์ ๋ชจ๋ธ์ด ๊ธฐ๋ณธ์ ์ค๋ฅ๋ฅผ ๋ฒํ๋ค๋ ์ฌ์ค์ ๋ชจํธํ๊ฒ ๋ง๋ค์ด ์ค๋ค. ๋ํ, ๋ชจ๋ธ์ ์ฌ์ฉ์์ ์ ๋ ์ ๊ฐํํ๋ ๊ฒฝํฅ์ด ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด์ ๊ฐ์ ๋ฌธ์ ์ ๋ค๊ณผ ๋ค๋ฅธ ๋ฌธ์ ์ ๋ค ๋ํ ์ด๋ป๊ฒ ๊ฐ์ฅ ์ ํด๊ฒฐํ ์ง ์ฐ๊ตฌํ์๋ค.
์ด๋ฌํ ํจ์จ์ ์ฌ์ฉ์ ์ํ ์ธ์๋ ๋ ผ๋ฌธ์ ์ ๊ทผ ๋ฐฉ์์ ๋ชจ๋ธ์ ์น ์ก์ธ์ค ๊ถํ์ ๋ถ์ฌํ์ฌ ํ๋ จ ์๊ฐ์ ์๋ก์ด ์ํ์ ๋์ ํ๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ์น๋ธ๋ผ์ฐ์ง ํ๊ฒฝ์ ๋ชจ๋ ์น์ ๋ํด ์ ๊ทผ์ ํ๊ฐํ์ง๋ ์์ง๋ง, ๋ชจ๋ธ์ด Microsoft Bing Web Search API์ ์ฟผ๋ฆฌ๋ฅผ ๋ณด๋ด๋ ๊ฒ์ ํ๊ฐํ๊ณ , ์น์ ์ด๋ฏธ ์กด์ฌํ๋ ๋งํฌ๋ฅผ ๋ฐ๋ผ๊ฐ๊ฒ ํ์๋๋ฐ, ์ด๋ ๋ถ์์ฉ์ด ์์ ์ ์๋ค. GPT-3์ ํจ๊ปํ ์คํ์์, ๋ชจ๋ธ์ ์ด๋ฌํ ๋ถ์์ฉ์ ์ํํ๊ฒ ์ ์ฉํ ๋งํผ ์ถฉ๋ถํ ๋ฅ๋ ฅ์ด ์๋ ๊ฒ์ผ๋ก ๋ณด์ด์ง๋ ์์๋ค. ๐ ํ์ง๋ง, ์ด๋ฌํ ์ํ์ ๋ชจ๋ธ ๊ธฐ๋ฅ์ ๋ฐ๋ผ ์ฆ๊ฐํ๋ฉฐ, ์ด์ ๋ํ ๋ด๋ถ ๋ณดํธ ์ฅ์น๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ํด ๋ ธ๋ ฅํด์ผ ํ๋ค. ๐ฅ
์ถ์ฒ
https://arxiv.org/abs/2112.09332
https://openai.com/blog/webgpt/