WebGPT: ์น ๋ธ๋ผ์ฐ์ง์ ํตํ LM์ Factual Accuracy ํฅ์
GPT-3๋ฅผ fine-tune ํ์ฌ text ๊ธฐ๋ฐ์ ์น๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํ์ฌ open-ended ์ง๋ฌธ์ ๋์ฑ ์ ํํ๊ฒ ๋ตํ๋๋ก ํ์๋ค. WebGPT์ ํ๋กํ ํ์ ์ ์ฌ๋์ด ์จ๋ผ์ธ์์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์กฐ์ฌํ๋ ๋ฐฉ๋ฒ์ ๋ณต์ฌํ์๋ค. ์ฌ๊ธฐ์๋ ๊ฒ์ ์ฟผ๋ฆฌ ์ ์ถ ๋ฐ ๋งํฌ ๋ฐ๋ผ๊ฐ๊ธฐ, ์น ํ์ด์ง ์์๋๋ก ์คํฌ๋กค๊ณผ ๊ฐ์ ํ๋์ ํฌํจํ๊ณ ์๋ค. WebGPT๋ ์ ๋ณด์ ์ถ์ฒ๋ฅผ ๋ฐํ๊ธฐ ์ํด ํ์ต๋์๋๋ฐ, ์ด ์ถ์ฒ๋ factual accuracy๋ฅผ ํฅ์์ํค๊ธฐ ์ํ ์ข์ ํผ๋๋ฐฑ์ ์ฝ๊ฒ ์ ๊ณตํด์ค ์ ์๊ฒ ๋ง๋ ๋ค. ์ด์ ๊ฐ์ ๊ณผ์ ์ ํตํด ๋์ฑ ์ ์งํ AI๋ฅผ ๋ง๋ค ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํ์ง๋ง, ์น์ํ์ง ์์ ์ ํ์ ์ง๋ฌธ์ ๋ณต์ฌํด์ค๋ ๋ฌธ์ ๊ฐ์ ๋ฌธ์ ๋ค์ด ๋จ์์๋ค. ๐ข
GPT-3 ๊ฐ์ LM์ ์๋ก ๋ค๋ฅธ ์ฌ๋ฌ ๊ฐ์ง task์ ๋ํด์ ๋งค์ฐ ์ ์ฉํ์ง๋ง, task๊ฐ ๋ถ๋ถ๋ช ํ real-world ์ง์์ ์๊ตฌํ ๋, ์ ๋ณด๋ฅผ 'ํ๊ฐ(hallucinate)'ํ๋ ๊ฒฝํฅ์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, text ๊ธฐ๋ฐ์ ์น๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํ์ฌ GPT-3๋ฅผ ๊ฐ๋ฅด์ณค๋ค. model์๊ฒ๋ open-ended ์ง๋ฌธ๊ณผ ๋ธ๋ผ์ฐ์ ์ํฉ์ ์์ฝ์ด ์ ๊ณต๋๋ฉฐ, "Search...", "Find in page...", "Quote..."๊ณผ ๊ฐ์ ๋ช ๋ น์ ์คํํด์ผ ํ๋ค. ์ด ๋ฐฉ๋ฒ์ผ๋ก, model์ ์นํ์ด์ง๋ก๋ถํฐ ๊ธ์ ์์งํ๊ณ , ์ด๋ฅผ ์ฌ์ฉํด์ ๋๋ต์ ๊ตฌ์ฑํ๋ค.
model์ ์ด์ ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค๊ณผ ๋๊ฐ์ด GPT-3๋ฅผ human feedback & human preference๋ก๋ถํฐ fine-tuneํ์๋ค. text ๊ธฐ๋ฐ์ ๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํด์ ์ง๋ฌธ์ ๋๋ตํ ์ ์๋๋ก ํ๋ ๋ฅ๋ ฅ์ ์ฃผ๋ ์ฌ๋์ demonstration์ ๋ณต์ฌํด์ model์ ํ์ต์ํจ๋ค. ๊ทธ ๋ค์์, reward model$($RM$)$์ ํ์ต์์ผ human preference๋ฅผ ์์ธกํ๊ณ , RL & rejection sampling์ ์ฌ์ฉํด์ human reference์ ๋ํด ์ต์ ํ ์ํค๋ ๋ฐฉ๋ฒ์ ํตํด model์ ๋๋ต์ ๋์์ฑ$($helpfulness$)$์ ์ ํ๋$($accuracy$)$๋ฅผ ํฅ์์์ผฐ๋ค. ๐ฅ
WebGPT์ ์ฌ์ฉ ์์๋ OpenAI์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ๋ฉด ํ์ธํ ์ ์๋ค. ์ฌ๊ธฐ์์ ํ ๋ฒ ํ์ธํด๋ณด๊ธธ ๋ฐ๋๋ค.
ELI5 ๊ฒฐ๊ณผ
WebGPT๋ "Explain Like I'm FIve" subreddit์ผ๋ก๋ถํฐ open-ended ์ง๋ฌธ์ ์คํฌ๋ฉํด์จ ๋ฐ์ดํฐ์ ์ธ ELI5์ ์ง๋ฌธ์ ์๋ตํ๊ธฐ ์ํด ํ์ต๋์๋ค. ์ด๋ฅผ ์ํด ์ด 3๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ํ๋ จ์์ผฐ๋๋ฐ, ๊ฐ๊ฐ ์๋ก ๋ค๋ฅธ ์ถ๋ก ์๊ฐ ์ปดํจํ ์์ฐ์ ์ฌ์ฉํ์๋ค. ๊ฐ์ฅ ๋ฐ์ด๋ ๋ชจ๋ธ์ ์ ์ฌํ ์์ค์ ์ฌ์ค ์ ํ๋๋ก human demonstrator๊ฐ ์์ฑํ ๋ต๋ณ๋ณด๋ค 56% ๋ ์ ํธ๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ๋ชจ๋ธ ํ๋ จ์ ์ฌ์ฉ๋ ๊ฒ๊ณผ ๋์ผํ ์ข ๋ฅ์ demonstration์ด์์ง๋ง human feedback์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๋ต๋ณ์ ๊ฐ์ ํจ์ผ๋ก์จ ์ด๋ฅผ ๋ฅ๊ฐํ ์ ์์๋ค.
TruthfulQA ๊ฒฐ๊ณผ
ํ์ต ๋ถํฌ์์ ๊ฐ์ ธ์จ ์ง๋ฌธ์ ๋ํด ์ต๊ณ ์ ๋ชจ๋ธ์ ๋ต๋ณ์ ํ๊ท ์ ์ผ๋ก human demonstrator๊ฐ ์์ฑํ ๋ต๋ณ๋งํผ ์ฌ์ค์ ์ผ๋ก ์ ํํ๋ค. ํ์ง๋ง, ํ์ต ๋ถํฌ ์ธ์ ์ง๋ฌธ์ ๋ํด์๋ ๋งค์ฐ ์ด๋ ค์ํ๋ค. ์ด๋ฅผ ์กฐ์ฌํ๊ธฐ ์ํด, ๋ชจ๋ธ์ TruthfulQA์ ๋ํด์ ํ๊ฐํด๋ณด์๋ค. TruthfulQA๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ์คํด์ ๊ฐ์ ๊ฒ์ ํฌ์๋๋์ง ์ฌ๋ถ๋ฅผ ํ ์คํธํ๋๋ก ์ค๊ณ๋ ์งง์ ํ์์ ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋ ์ ๋์ ์ธ ๋ฐ์ดํฐ์ ์ด๋ค. ๋๋ต๋ค์ ์ง์ค์ฑ$($truthfulness$)$์ ์ ๋ณด์ฑ$($informativeness$)$ ์๋ฉด์ผ๋ก ์ธก์ ๋๋ค. ์๋ฅผ ๋ค์ด, "I have no comment"์ ๊ฐ์ ๋ฌธ์ฅ์ ์ง์ค์ฑ์ ์์ง๋ง, ์ ๋ณด์ฑ์ ์๋ ๋ฌธ์ฅ์ผ๋ก ๋ถ๋ฅ๋๋ค.
WebGPT๋ TruthfulQA์ ๋ํด GPT-3๋ฅผ ๋ฅ๊ฐํ๊ณ , ๋ณด๋ค ์ ๋ฆฌํ scaling ํน์ฑ์ ๋ํ๋๋ค. ํ์ง๋ง, WebGPT๋ ์ฌ๋๋ณด๋ค๋ ๋ค์ฒ์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋๋ฐ, ์๋ํ๋ฉด ๊ฐ๋ ์ ๋ขฐํ ์ ์๋ ์์ค๋ก๋ถํฐ ์ธ์ฉํด์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ์ค์์ ๋น๋๋ฅผ ์ค์ด๊ธฐ ์ํด ์ ๋์ ํ์ต๊ณผ ๊ฐ์ ๊ธฐ์ ์ ์ฌ์ฉํ์๋ค.
Factual Accuracy ์ธก์
factual accuracy๋ฅผ ํฅ์์ํค๊ธฐ ์ํด feedback์ ์ ๊ณตํ๊ธฐ ์ํด์ ์ฌ๋์ ๋ชจ๋ธ์ด ์์ฑํ ์ฃผ์ฅ์ factual accuracy๋ฅผ ํ๊ฐํ ์ ์์ด์ผ ํ๋ค. ์ด๊ฒ์ ๋งค์ฐ ์ด๋ ค์ธ ์ ์๋๋ฐ, ์๋ํ๋ฉด ๋ชจ๋ธ์ ์ฃผ์ฅ์ ๊ธฐ์ ์ ์ผ ์๋ ์๊ณ , ํธํฅ์ ์ผ ์๋ ์๊ณ , ๋ชจํธํ ์๋ ์๋ค. ์ด์ ๊ฐ์ ์ด์ ๋๋ฌธ์, ๋ชจ๋ธ์๊ฒ ์ ๋ณด์ ์ถ์ฒ๋ฅผ ์๊ตฌํ๋๋ก ํ์๋ค. ์ด๋ฅผ ํตํด, ์ฌ๋์ ๋ชจ๋ธ์ factual accuracy๋ฅผ ๋ชจ๋ธ์ ์ฃผ์ฅ์ด ์ ๋ขฐํ ์ ์์๋งํ ์ถ์ฒ๋ก๋ถํฐ ๋ง๋ค์ด์ง ๊ฑด์ง ํ์ธํ ์ ์์๋ค. ์ด๋ task๋ฅผ ๋์ฑ ๊ด๋ฆฌํ๊ธฐ ์ฝ๊ฒ ๋ง๋ค ๋ฟ๋ง ์๋๋ผ, ๋ ๋ชจํธํ๊ฒ ๋ง๋ค์๋ค. ์ด๊ฒ์ ๋ผ๋ฒจ ์ก์์ ์ค์ด๋๋ฐ ์ค์ํ๋ค.
ํ์ง๋ง, ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ์ฌ๋ฌ ์๋ฌธ์ ๋ ์ค๋ฅด๊ฒ ํ๋ค. ๋ฌด์์ด ์ถ์ฒ๊ฐ ์ ๋ขฐํ ์ ์๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฒ์ผ๊น? ์ด๋ ํ ์ฃผ์ฅ์ด ๋ท๋ฐ์นจ ์์ด๋ ์ถฉ๋ถํ ์ ๋ขฐํ ์ ์๋ ์ฃผ์ฅ์ธ ๊ฑธ๊น? factual accuracy์ ๋ํ ํ๊ฐ์ coherence์ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๊ธฐ๋ถ ์ฌ์ด์ ์ด๋ค ์ ์ถฉ์์ด ์ด๋ฃจ์ด์ ธ์ผ ํ ๊น? ์ด๋ฐ ๊ฒ๋ค์ ๋ชจ๋ ๋ช ํํ ์ ์ํ๊ธฐ ์ด๋ ต๋ค.. ๐ข ๋ ผ๋ฌธ์์๋ WebGPT๊ฐ ์ด๋ฌํ ๋์์ค์ ๋ง์ ๋ถ๋ถ์ ํด๊ฒฐํ๋ค๊ณ ์๊ฐํ์ง ์๋๋ค. ์๋ํ๋ฉด WebGPT๋ ์์ง ๊ธฐ๋ณธ์ ์ธ ์ค์๋ค์ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๐ ํ์ง๋ง, AI ์์คํ ์ ๋ฐ์ ์ด ์ค์ํ ๋งํผ ์ด๋ฌํ ์ ์๋ค๋ ์ค์ํ๋ค๊ณ ์๊ฐํ๋ค. ๋ํ, ํฌ๋ช ์ฑ๊ณผ ๊ฐ์ ์ถ๊ฐ ๊ณ ๋ ค ์ฌํญ์ด ์ค์ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๊ฒฐ๊ตญ, ์ถ์ฒ๋ ๋ชจ๋ธ์ factual accuracy๋ฅผ ์ธก์ ํ๊ธฐ์๋ ์ ํฉํ์ง ์๋ค๋ ๊ฒ์ ์์๋ค. ์ถฉ๋ถํ ์ ๋ฅํ ๋ชจ๋ธ์ ์ฆ๊ฑฐ์ ๋ํ ๊ณต์ ํ ํ๊ฐ๋ฅผ ๋ฐ์ํ์ง ์๋๋ผ๋ ์ฌ๋์ด ์ค๋๋ ฅ์ ์ฐพ์ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ ์์ค๋ฅผ ์ ๋ณํ๋ค. ๋ชจ๋ธ์ด ์๋ํ๋ ๊ฒ์ ๋ณด๋ฉด, ์ด๋ฌํ ๊ฒ์ ๋ํ ์ฌ์ธ์ด ์๋ค.
ํจ์จ์ ์ฌ์ฉ ๋ฐ ํ์ต์ ์ํ
WebGPT๋ ์ผ๋ฐ์ ์ผ๋ก GPT-3์ ๋นํด์ ๋์ฑ ์ง์คํ์ง๋ง$($์๋ชป๋ ์ฃผ์ฅ์ ๋์ฑ ์ ๊ฒ ํจ$)$, ์์ง ๋ช ๊ฐ์ง ๋ฆฌ์คํฌ๋ฅผ ์ ๊ธฐํ๋ค. ์ธ์ฉ์ด ์๋ ๋ต๋ณ์ ์ข ์ข ๊ทธ๋ด ๋ฏํ ๋ถ์๊ธฐ๋ฅผ ๋ง๋ค์ด์ ๋ชจ๋ธ์ด ๊ธฐ๋ณธ์ ์ค๋ฅ๋ฅผ ๋ฒํ๋ค๋ ์ฌ์ค์ ๋ชจํธํ๊ฒ ๋ง๋ค์ด ์ค๋ค. ๋ํ, ๋ชจ๋ธ์ ์ฌ์ฉ์์ ์ ๋ ์ ๊ฐํํ๋ ๊ฒฝํฅ์ด ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด์ ๊ฐ์ ๋ฌธ์ ์ ๋ค๊ณผ ๋ค๋ฅธ ๋ฌธ์ ์ ๋ค ๋ํ ์ด๋ป๊ฒ ๊ฐ์ฅ ์ ํด๊ฒฐํ ์ง ์ฐ๊ตฌํ์๋ค.
์ด๋ฌํ ํจ์จ์ ์ฌ์ฉ์ ์ํ ์ธ์๋ ๋ ผ๋ฌธ์ ์ ๊ทผ ๋ฐฉ์์ ๋ชจ๋ธ์ ์น ์ก์ธ์ค ๊ถํ์ ๋ถ์ฌํ์ฌ ํ๋ จ ์๊ฐ์ ์๋ก์ด ์ํ์ ๋์ ํ๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ์น๋ธ๋ผ์ฐ์ง ํ๊ฒฝ์ ๋ชจ๋ ์น์ ๋ํด ์ ๊ทผ์ ํ๊ฐํ์ง๋ ์์ง๋ง, ๋ชจ๋ธ์ด Microsoft Bing Web Search API์ ์ฟผ๋ฆฌ๋ฅผ ๋ณด๋ด๋ ๊ฒ์ ํ๊ฐํ๊ณ , ์น์ ์ด๋ฏธ ์กด์ฌํ๋ ๋งํฌ๋ฅผ ๋ฐ๋ผ๊ฐ๊ฒ ํ์๋๋ฐ, ์ด๋ ๋ถ์์ฉ์ด ์์ ์ ์๋ค. GPT-3์ ํจ๊ปํ ์คํ์์, ๋ชจ๋ธ์ ์ด๋ฌํ ๋ถ์์ฉ์ ์ํํ๊ฒ ์ ์ฉํ ๋งํผ ์ถฉ๋ถํ ๋ฅ๋ ฅ์ด ์๋ ๊ฒ์ผ๋ก ๋ณด์ด์ง๋ ์์๋ค. ๐ ํ์ง๋ง, ์ด๋ฌํ ์ํ์ ๋ชจ๋ธ ๊ธฐ๋ฅ์ ๋ฐ๋ผ ์ฆ๊ฐํ๋ฉฐ, ์ด์ ๋ํ ๋ด๋ถ ๋ณดํธ ์ฅ์น๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ํด ๋ ธ๋ ฅํด์ผ ํ๋ค. ๐ฅ
์ถ์ฒ
https://arxiv.org/abs/2112.09332
WebGPT: Browser-assisted question-answering with human feedback
We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using
arxiv.org
https://openai.com/blog/webgpt/
WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing
We've fine-tuned GPT-3 to more accurately answer open-ended questions using a text-based web browser. Our prototype copies how humans research answers to questions online—it submits search queries, follows links, and scrolls up and down web pages. It is
openai.com