Language Model$($LM$)$์ ์ง๋ ๋ช ๋ ๋์ ์ฌ๋์ ์ ๋ ฅ์ ํตํด ๋ค์ํ๊ณ ๊ทธ๋ด ๋ฏํ text๋ฅผ ์์ฑํด๋ด๋ฉด์ ๊ฐ๋ ฌํ ์ธ์์ ๋จ๊ฒผ๋ค. ํ์ง๋ง, ์ด๋ค ์ ์ด ์ด๋ ๊ฒ ์ข์ text๋ฅผ ์ถ๋ ฅํ ์ ์๊ฒ ํ๋์ง๋ ์์ธํ ์ ์ํ ์ ์์๋ค. ์๋ํ๋ฉด LM์ด subjectiveํ๊ณ context dependentํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด LM์ ์์ฉํ ์ฌ๋ก๋ ์ ๋ง ๋ง์๋ฐ, ์ฐฝ์์ฑ์ ํ์๋ก ํ๋ ์์ค ์ฐ๊ธฐ, ์ง์ค์ฑ์ ํ์๋ก ํ๋ ์ ๋ณด ์ ๋ฌ, ์คํ ๊ฐ๋ฅํ ์ฝ๋ ์์ฑ๊ณผ ๊ฐ์ ์๋ค์ด ์๋ค.
์์คํจ์๋ฅผ ์์ฑํด์ ์ด๋ฌํ ํน์ฑ๋ค์ ๋์ง์ด๋ด๋ ๊ฑด ๋งค์ฐ ์ด๋ ค์ ๋ณด์ด๊ณ , ๋ง์ LM๋ค์ ์์ง๋ ๋งค์ฐ ๊ฐ๋จํ next token prediction loss๋ฅผ ํตํ์ฌ ํ์ต๋๊ณ ์๋ค. ์ด๋ฌํ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด, ์ฌ๋๋ค์ ์ฌ๋์ ์ ํธ๋ฅผ ๋์ฑ ์ ์ก์๋ด๊ธฐ ์ํ ๋ฐฉ๋ฒ์ธ BLEU์ ROUGE๋ฅผ ๊ฐ๋ฐํ์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ด์ ์ ์์ค ํจ์๋ณด๋ค ์ฑ๋ฅ์ ์ธก์ ํ ๋ ๋ ์ ํฉํ์ง๋ง ์ด๋ฌํ ๋ฐฉ์์ ์์ฑ๋ ํ ์คํธ๋ฅผ ๊ฐ๋จํ ๊ท์น์ด ์๋ ์ฐธ์กฐ์ ๋จ์ํ ๋น๊ตํ๋ฏ๋ก ์ ํ์ ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ์์ฑ๋ ํ ์คํธ์ ๋ํด ์ฌ๋์ ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ๋ฉด ์ด๋จ๊น? ํ ์ ๋ ๋ ์ ์ด ํผ๋๋ฐฑ์ loss๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ต์ ํ์ํค๋ฉด ์ด๋จ๊น? ์ด๊ฒ์ด ๋ฐ๋ก Reinforcement Learning from Human Feedback ์ฆ, RLHF์ ๊ธฐ๋ณธ ์๋ฆฌ์ด๋ค: ๊ฐํ ํ์ต์ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ฌ๋์ ํผ๋๋ฐฑ๊ณผ ํจ๊ป LM์ ์ต์ ํ ์ํค๋ ๊ฒ์ด๋ค. RLHF๋ ๋จ์ํ ํ ์คํธ๋ก๋ถํฐ ํ์ต๋ LM์ด ์ข ๋ ๋ณต์กํ ์ฌ๋์ ๊ฐ์น์ ๋ฐ๋ผ ์กฐ์ ๋ ์ ์๋๋ก ํด์ค๋ค.
RLHF์ ๊ฐ์ฅ ์ฑ๊ณตํ ์ฌ๋ก ์ค ํ๋๋ ๋ฐ๋ก ChatGPT์ด๋ค. ์ฌ์ค ์ด ํฌ์คํธ๋ฅผ ์์ฑํ๊ณ ์๋ ์ด์ ๋ ChatGPT์ ์ฌ์ฉ๋ InstructGPT์ ๋ํด ๊ณต๋ถํด๋ณด๊ธฐ ์ํด, ์ ํ์ผ๋ก ํ์ํ ๊ณผ์ ์ธ RLHF์ ๋ํด ๊ณต๋ถํ๊ธฐ ์ํด์์ด๋ค. ๋ค์ ๋ณธ๋ก ์ผ๋ก ๋์์์, ChatGPT๋ ์ค๋ก ์์ฒญ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋๋ฐ, ์ด ChatGPT์ ์ฌ์ฉ๋ ๊ธฐ์ ์ธ RLHF์ ๋ํด ์ข ๋ ์์ธํ๊ฒ ๋ค๋ค๋ณด๊ฒ ๋ค.
RLHF: ์ฐจ๋ก์ฐจ๋ก ์ดํด๋ณด์!
RLHF๋ ๋งค์ฐ ์ด๋ ค์ด ์ฃผ์ ์ธ๋ฐ, ์๋ํ๋ฉด ์ฌ๋ฌ ๋จ๊ณ์ ํ์ต ํ๋ก์ธ์ค์ ์๋ก ๋ค๋ฅธ ์ ๊ฐ ๋จ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ณธ ํฌ์คํธ์์๋ ์ด ํ์ต ํ๋ก์ธ์ค๋ฅผ 3๊ฐ์ ํต์ฌ ์คํ ์ผ๋ก ์ชผ๊ฐ์ ์ค๋ช ํ๊ณ ์ ํ๋ค.
- LM Pre-training ํ๊ธฐ
- ๋ฐ์ดํฐ ์์ง ๋ฐ reward model ํ์ต
- LM์ ๊ฐํํ์ต์ ์ด์ฉํ์ฌ fine-tuning
์์ํ๊ธฐ์ ์์, ์ด๋ป๊ฒ LM์ด pre-train๋๋์ง ์ดํด๋ณด๋๋ก ํ์.
Pre-training LM
RLHF๋ ๊ธฐ์กด์ LM๋ค๊ณผ ๋๊ฐ์ด, ์ผ๋ฐ์ ์ธ pre-training ๋ชฉํ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. OpenAI์์๋ ์กฐ๊ธ ์์ ๋ฒ์ ์ GPT-3์ ์ฌ์ฉํ์ฌ, ์ ๋ช ํ RLHF ๋ชจ๋ธ์ธ InsrtucGPT๋ฅผ ๊ฐ๋ฐํ์๋ค.
์ด๋ฌํ ์ด๊ธฐ์ ๋ชจ๋ธ๋ค์ ์ถ๊ฐ์ ์ธ ํ ์คํธ ๋๋ ์ํฉ์ ๋ฐ๋ผ fine-tuning ๋ ์ ์์ง๋ง, ๊ตณ์ด ๊ทธ๋ฌ์ง ์์๋ ๋๋ค. ์๋ฅผ ๋ค์ด, OpenAI๋ ์ฌ๋์ด ์์ฑํ ํ ์คํธ๋ฅผ ์ด์ฉํ์ฌ fine-tuning ํ์์ง๋ง, ์ด๋ ๊ธฐํธ์ ๋ฐ๋ผ ํ์ง ์์ ์๋ ์๋ ๊ฒ์ด๋ค. ์๋ํ๋ฉด, ์ด ๊ณผ์ ์ ๋ง์ ๋น์ฉ์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ค์์ผ๋ก, LM๊ณผ ํจ๊ป, reward model์ ์ค๊ณํ ํ์๊ฐ ์๋ค. ์ด reward model์ ์ธ๊ฐ์ ๊ธฐํธ๊ฐ ์์คํ ์ ํตํฉ๋๊ฒ ํด์ค๋ค.
Reward model ํ์ต
์ฌ๋์ ์ ํธ๋๋ก ์กฐ์ ๋ reward model$($RM$)$์ ์์ฑํ๋ ๊ฒ์ RLHF์์ ์๋์ ์ผ๋ก ์๋ก์ด ์ฐ๊ตฌ๊ฐ ์์๋๋ ๊ณณ์ด๋ค. ๊ทผ๋ณธ์ ์ธ ๋ชฉํ๋ ๋ชจ๋ธ ๋๋ ์์คํ ์ด text sequence๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์ฌ๋์ ์ ํธ๋๋ฅผ ์ซ์๋ก ํํํ ์ค์นผ๋ผ ๊ฐ์ ์ป๋ ๊ฒ์ด๋ค. ์ด ์์คํ ์ end-to-end LM ๋๋ reward๋ฅผ ์ถ๋ ฅํ๋ ๋ชจ๋์ ์์คํ ์ผ ์๋ ์๋ค. $($์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์์๋ฅผ ๋งค๊ธฐ๊ณ , ์์๋ reward๋ก ๋ณํ๋๋ค.$)$ ์ค์นผ๋ผ reward์ธ ์ถ๋ ฅ์ RLHF ํ๋ก์ธ์ค์์ ๋์ค์ ์ํํ๊ฒ ํตํฉ๋๋ ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ์ ๋งค์ฐ ์ค์ํ๋ค.
์ด๋ ๊ฒ reward modeling์ ์ํ LM์ ๋ ๋ค๋ฅธ fine-tuned LM์ด๊ฑฐ๋ ์ ํธ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ฒ์๋ถํฐ ํ์ต๋ LM์ด ๋๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด, Anthropic์ fine-tuning๋ณด๋ค ์ํ์ด ๋ ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ์์๊ธฐ ๋๋ฌธ์ ์ฌ์ ํ๋ จ ํ ์ด๋ฌํ ๋ชจ๋ธ์ ์ด๊ธฐํํ๊ธฐ ์ํด fine-tuning์ ํน์ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง๋ง reward modeling์ ์ด๋ค ๋ณํ๋ ๋ช ํํ ์ต๊ณ ๋ก ๊ฐ์ฃผ๋์ง ์์๋ค.
RM์ ์ํ prompt-generation ์ง์ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฌ์ ์ ์ ์๋ ๋ฐ์ดํฐ์ ์์ ์ํ๋ง์ ํตํด ์ ์๋์๋ค. prompt๋ ์๋ก์ด ํ ์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ด๊ธฐ์ LM ์์ ์ง๋๊ฐ๋ค.
human annotator๋ LM์ผ๋ก๋ถํฐ ์์ฑ๋ ํ ์คํธ ์ถ๋ ฅ์ ํ๊ฐํ๋ค. ์ฌ๋์ด ๋ฐ๋ก ์ค์นผ๋ผ ๊ฐ์ ์ ์๋ก ๋งค๊ธธ ์ ์๋ค๋ฉด ์ข๊ฒ ์ง๋ง, ์ด๋ ๋งค์ฐ ํ๋ค๋ค. ์ฌ๋๋ง๋ค ๋ค๋ฅธ ๊ฐ์น์ ๊ฐ๋ ๋๋ฌธ์, ์ด ์ ์์ ์ก์์ ์์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ ๋์ ์, ์ฌ๋ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก ๋ ๋์ ์ ๊ทํ๋ ๋ฐ์ดํฐ์ ์ ์์ฑํด๋ธ๋ค.
ํ ์คํธ์ ๋ญํน์ ๋งค๊ธฐ๋ ๋ฐฉ๋ฒ์๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์๋๋ฐ, ๊ฐ์ฅ ์ฑ๊ณต์ ์ธ ๋ฐฉ๋ฒ์ ๋๊ฐ์ prompt์ ์ํด condition๋ 2๊ฐ์ LM์ด ์์ฑํ ํ ์คํธ๋ฅผ ๋น๊ตํ๋ ๋ฐฉ์์ด๋ค. ์ผ๋์ผ ๋งค์น์ ์์ ๋ชจ๋ธ ์ถ๋ ฅ์ ๋น๊ตํจ์ผ๋ก์จ Elo ์์คํ ์ ์ฌ์ฉํ์ฌ ์๋ก ์๋์ ์ธ ๋ชจ๋ธ ๋ฐ ์ถ๋ ฅ์ ์์๋ฅผ ์์ฑํ ์ ์๋ค. ์ด๋ ๊ฒ ๋ญํน์ ๋งค๊ธฐ๋ ์๋ก ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ํ์ต์ ์ํด ์ค์นผ๋ผ reward signal๋ก ์ผ๋ฐํ๋๋ค.
์ฑ๊ณต์ ์ธ RLHF ์์คํ ์ ํฅ๋ฏธ๋ก์ด ์ ์ text generation์ ๋ฐ๋ผ ์๋์ ์ผ๋ก ๋ค์ํ ํฌ๊ธฐ์ reward lanugage model์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ preference model์ ํด๋น ํ ์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ชจ๋ธ์ด ํ์๋ก ํ๋ ๊ฒ์ฒ๋ผ ๊ทธ๋ค์๊ฒ ์ฃผ์ด์ง ํ ์คํธ๋ฅผ ์ดํดํ๋ ์ ์ฌํ ๋ฅ๋ ฅ์ ๊ฐ์ ธ์ผ ํ๋ค.
RLHF ์์คํ ์ ์ด ์์ ์์, ์ฐ๋ฆฌ๋ ํ ์คํธ์ preference model์ ์์ฑํ ์ ์๋ ์ด๊ธฐ์ LM์ ๊ฐ์ง๊ณ ์๋ค. ์ฌ๊ธฐ์ preference model์ ๋ชจ๋ ํ ์คํธ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ์ฌ๋์ด ๊ทธ๊ฒ์ ์ผ๋ง๋ ์ ์ธ์ํ๋์ง์ ๋ํ ์ ์๋ฅผ ๋งค๊ธด๋ค. ๋ค์์ผ๋ก, ๊ฐํํ์ต$($RL; reinforcement learning$)$์ ์ฌ์ฉํ์ฌ ๊ธฐ์กด์ LM์ RM์ ๋ํ์ฌ ์ต์ ํ ์ํจ๋ค.
RL์ ์ฌ์ฉํ Fine-tuning
๊ฐํํ์ต์ ์ฌ์ฉํ์ฌ LM์ ํ์ต์ํค๋ ๊ฒ์ ๊ธฐ์ ์ ์ผ๋ก๋ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ค๊ณ ์ฌ๊ฒจ์ก๋ค. ๊ทธ๋์ ์๋ ๋์๋ ๋ฐฉ๋ฒ์ ์ ์ฑ ๊ทธ๋ผ๋ฐ์ด์ RL ์๊ณ ๋ฆฌ์ฆ์ธ PPO$($Proximal Policy Optimization$)$๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐ LM ์ฌ๋ณธ์ ์ผ๋ถ ๋๋ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ฒ์ด์๋ค. LM์ ํ๋ผ๋ฏธํฐ๋ค์ ๋ณ๋ํ์ง ์๋๋ฐ ์๋ํ๋ฉด, ๊ฑฐ๋ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ fine-tuningํ๋ ๊ฒ์ ๋น์ฉ์ด ๋งค์ฐ ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ด๋ค. PPO๋ ๋น๊ต์ ์ค๋ซ๋์ ์ฌ์ฉ๋์ด์๋ค. ์ด PPO์ relative maturity๋ RLHF์ ๋ํ ๋ถ์ฐ ํ๋ จ์ ์๋ก์ด ์ ์ฉ์ผ๋ก ํ์ฅํ๋ ๋ฐ ์ ๋ฆฌํ ์ ํ์ด ๋์๋ค. RLHF๋ฅผ ์ํํ๊ธฐ ์ํ ๋ง์ ํต์ฌ RL ๋ฐ์ ์ ์น์ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ด๋ฌํ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ์ ์์๋ธ ๊ฒ์ผ๋ก ๋ฐํ์ก๋ค.
์ด์ ์ด fine-tuning task๋ฅผ RL ๋ฌธ์ ๋ก ๊ณ ์ํด๋ณด๋๋ก ํ์. ์ฒซ ๋ฒ์งธ๋ก, prompt๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ text sequence๋ฅผ ์ถ๋ ฅํ๋ LM์ policy์ด๋ผ ํ๋ค. ์ด๋ฌํ policy์ action space๋ LM์ vocabulary์ ๋์ํ๋ ๋ชจ๋ ํ ํฐ์ ์๋ฏธํ๊ณ , observation space๋ ๊ฐ๋ฅํ ์ ๋ ฅ token sequence๋ฅผ ์๋ฏธํ๋ค. ๊ทธ๋ฆฌ๊ณ reward function์ ์ ํธ๋ ๋ชจ๋ธ๊ณผ ์ ์ฑ ๋ณํ์ ๋ํ ์ ์ฝ์ ์กฐํฉ์ด๋ค.
์ฌ๊ธฐ์ reward function์ ๋ชจ๋ ๋ชจ๋ธ์ ํ๋์ RLHF ํ๋ก์ธ์ค๋ก ๋ฌถ๋ ์์คํ ์ ์๋ฏธํ๋ค. ๋ฐ์ดํฐ์ ์์ prompt $x$๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ ๊ฐ์ ํ ์คํธ $y1, y2$๊ฐ ์์ฑ๋๋ค - ํ๋๋ ์ด๊ธฐ์ LM๋ก๋ถํฐ ๋์จ ๊ฒ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ fine-tuned policy์ ํ์ฌ ๋ฒ์ ์์ ๋์จ ๊ฒ์ด๋ค. ํ์ฌ์ policy๋ก๋ถํฐ ๋์จ ํ ์คํธ๋ ์ค์นผ๋ผ ๊ฐ '์ ํธ๋' $r_{\theta}$๋ฅผ ๋๋ ค์ฃผ๋ preference model๋ก ๋ค์ด๊ฐ๊ฒ ๋๋ค. ์ด ํ ์คํธ๋ ์ด๊ธฐ์ model๋ก๋ถํฐ ๋์จ ํ ์คํธ์ ๋น๊ตํ์ฌ ๋ ํ ์คํธ ๊ฐ์ ์ฐจ์ด์ ๋ํ ํ๋ํฐ๋ฅผ ๊ณ์ฐํ๋ค. OpenAI์ ๋ง์ ๋ ผ๋ฌธ๋ค์์๋ ์ด ํ๋ํฐ๋ฅผ ํ ํฐ $r_{KL}$์ ๋ํ ๋ถ๋ฐฐ ์ํ์ค ๊ฐ์ Kullback–Leibler$($KL$)$ divergence์ ํ์ฅ๋ ๋ฒ์ ์ผ๋ก ์ค๊ณํ์๋ค. KL divergence๋ RL ์ ์ฑ ์ด ๊ฐ ํ๋ จ ๋ฐฐ์น๊ฐ ์๋ ์ด๊ธฐ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์์ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๋๋ก ํจ๋ํฐ๋ฅผ ์ค๋ค. ์ด๋ ๋ชจ๋ธ์ด ํฉ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ text snippet์ ์ถ๋ ฅํ๋์ง ํ์ธํ๋ ๋ฐ ์ ์ฉํ ์ ์๋ค. ์ด๋ฌํ ํ๋ํฐ๊ฐ ์์ผ๋ฉด, optimization์ ํก์ค์์คํ ํ ์คํธ๋ฅผ ์์ฑํ์ง๋ง, RM์ ์์ฌ์ ๋์ reward๋ฅผ ๋ฐ์ ์ ์๊ฒ ๋๋ค. ์ค์ ๋ก KL divergence๋ ๋ ๋ถํฌ์ ์ํ๋ง์ ํตํด ๊ทผ์ฌํ๋๋ค. RL ์ ๋ฐ์ดํธ ๊ท์น์ผ๋ก ์ ์ก๋๋ ๋ง์ง๋ง reward๋ $r = r_{\theta} - \lambda r_{KL}$์ด๋ค.
์ด๋ค RLHF ์์คํ ์ reward function์ ์ถ๊ฐ์ ์ธ term์ ๋ฃ๊ธฐ๋ ํ๋ค. ์๋ฅผ ๋ค์ด, OpenAI๋ InstructGPT์์ PPO์ ๋ํ ์ ๋ฐ์ดํธ ๊ท์น์ ์ถ๊ฐ์ ์ธ ์ฌ์ ํ์ต๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ์์์ผ๋ก์จ ์ฑ๊ณต์ ์ธ ์คํ์ ์งํํ์๋ค. RLHF๊ฐ ๊ณ์ ๋ฐ์ ๋์ด์ผ ํ๋ ๊ฒ์ฒ๋ผ ์ด reward function๋ ๋์์์ด ์งํํด์ผ ํ๋ค.
๋ง์ง๋ง์ผ๋ก, update rule์ ํ์ฌ ๋ฐ์ดํฐ ๋ฐฐ์น์ reward metrics๋ฅผ ์ต๋ํํ๋ PPO์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ์ด๋ค. PPO๋ ์ ๋ขฐ ์์ญ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ธฐ์ธ๊ธฐ์ ์ ์ฝ์ ๊ฑธ์ด ํ์ต ํ๋ก์ธ์ค๋ฅผ ๋ถ์์ ํ๊ฒ ํ์ง ์๋๋ก ์ ๋ฐ์ดํธ ์คํ ์ ๋ณด์ฅํ๋ค.
์ด์ RLHF๋ ์ด ์์ ๋ถํฐ reward model์ policy์ ์ ๋ฐ์ดํธ๋ฅผ ๋ฐ๋ณตํ๋ ๊ฒ์ผ๋ก ๊ณ์ํ ์ ์๋ค. RL policy๊ฐ ์ ๋ฐ์ดํธ ๋จ์ ๋ฐ๋ผ, ์ ์ ๋ค์ ๋ชจ๋ธ์ ์ด์ ๋ฒ์ ๊ณผ ์ง๊ธ ๋ฒ์ ์ ์ถ๋ ฅ์ ๋น๊ตํ์ฌ ๋ญํน์ ๋งค๊ธฐ๋ ๊ฒ์ ๊ณ์ํ ์ ์๋ค. ์ด๋ฌํ ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๋ฐ ํ์ํ deployment mode๋ ์ฐธ์ฌ ์ฌ์ฉ์ ๊ธฐ๋ฐ์ ๋ํ ์ก์ธ์ค ๊ถํ์ด ์๋ ๋ํ ์์ด์ ํธ์๋ง ์๋ํ๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ์ ๋ฌธ์์์๋ ์์ง ์ด ์์ ๊ตฌํ์ ๋ํด ๋ ผ์๋์ง ์์๋ค.
RLHF, ๊ทธ ๋ค์์?
RLHF๋ ์ ๋งํจ๊ณผ ์ํฉํธ๋ฅผ ๋ณด์ฌ์ค์ผ๋ก์จ ์ฌ๋ฌ ๊ฑฐ๋ํ AI lab์ ๊ด์ฌ์ ๋๊ณ ์์ง๋ง, ์ฌ๊ธฐ์๋ ๋ช ํํ ์ ์ฝ์ด ์๋ค. ๋ชจ๋ธ์ ๋ ๋์ ๋ฐ๋ฉด ์ฌ์ ํ ์ ํดํ๊ฑฐ๋ ์ฌ์ค์ ์ผ๋ก ๋ถ์ ํํ ํ ์คํธ๋ฅผ ๋ถํ์ค์ฑ ์์ด ์ถ๋ ฅํ ์ ์๋ค. ์ด๋ฌํ ๊ฒฐ์ ์ RLHF์๊ฒ ์์ผ๋ก์ ๋์ ๊ณผ์ ์ ๋๊ธฐ๋ฅผ ์ฃผ๊ฒ ๋ ๊ฒ์ด๋ค. ๋ณธ์ง์ ์ผ๋ก ์ธ๊ฐ์ ๋ฌธ์ ์์ญ์์ ์๋ํ๋ค๋ ๊ฒ์ ๋ชจ๋ธ์ด ์์ ํ ๊ฒ์ผ๋ก ๋ถ๋ฅ๋๊ธฐ ์ํด ๊ต์ฐจํด์ผ ํ ๋ช ํํ ์ต์ข ์ ์ด ๊ฒฐ์ฝ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
RLHF๋ฅผ ์ด์ฉํ์ฌ ์์คํ ์ ์ฌ์ฉํ ๋, ์ฌ๋์ ์ ํธ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฒ์ ๋งค์ฐ ๋ง์ ๋น์ฉ์ ํ์๋ก ํ๋ค. RLHF๋ ์ฌ๋์ ์ฃผ์์ด ์์ ๋๋ง ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํน์ prompt์ ์๋ตํ๋ ์ ์์ฑ๋ ์ฌ๋ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ ์๊ฐ์ ์ง์์ ๊ณ ์ฉํด์ผ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค. ๊ฐ์ฌํ๊ฒ๋, ๋๋ถ๋ถ์ RLHF ์์ฉ์์ RM์ ํ์ต์ํค๋๋ฐ ํ์ํ ๋ฐ์ดํฐ์ ์์ ๊ทธ๋ ๊ฒ ๋น์ฉ์ด ๋ง์ด ๋ค์ง ์๋๋ค. ํ์ง๋ง, ์์ง๋ ํ๋ฌธ์ ๋ฉ์์ ์ฌ์ฉํ๊ธฐ์๋ ๋์ ๋น์ฉ์ด๋ค.. ํ์ฌ์๋, ์ผ๋ฐ์ ์ธ LM์ ๋ํด์ RLHF๋ฅผ ์ ์ฉํ๊ธฐ ์ํ ํ๋์ ํฐ ๋ฐ์ดํฐ์ $($Anthropic$)$๊ณผ task-specificํ ์ฌ๋ฌ ๊ฐ์ ์์ ๋ฐ์ดํฐ์ ๋ค$($OpenAI$)$์ด ์กด์ฌํ๋ค. RLHF์ ๋ํ ๋ฐํฐ์ด์ ๋ ๋ฒ์งธ ๋ฌธ์ ์ ์ human annotator๊ฐ ground truth์์ด ์ถ๊ฐํ ๋ฐ์ดํฐ๋ ํ์ต ๋ฐ์ดํฐ์ ์๋นํ ์ ์ฌ์ ์ธ ๋ถ์ฐ์ ์ถ๊ฐํ ์ ์๋ค.
๋์ฑ ์์ธํ ๋ด์ฉ์ด ์๊ณ ์ถ๋ค๋ฉด ์ด ์์์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
P.S.
๋ฌด์์ ๋ฐ๋ผ ์ฝ์ผ๋ฉด์ ์์ฑํด๋ณด๊ธด ํ์ผ๋ ์์ง ์๋ฒฝํ ์ดํดํ์ง ๋ชปํ ๋ถ๋ถ๋ค์ด ๋ง์ ๊ฒ ๊ฐ๋ค. ์ถํ์ ์ข ๋ ์์ธํ๊ฒ ๊ณต๋ถํด๋ณด๋๋ก ํ๊ฒ ๋ค!!
์ถ์ฒ
https://huggingface.co/blog/rlhf