Language Model$($LM$)$์ ์ง๋ ๋ช ๋ ๋์ ์ฌ๋์ ์ ๋ ฅ์ ํตํด ๋ค์ํ๊ณ ๊ทธ๋ด ๋ฏํ text๋ฅผ ์์ฑํด๋ด๋ฉด์ ๊ฐ๋ ฌํ ์ธ์์ ๋จ๊ฒผ๋ค. ํ์ง๋ง, ์ด๋ค ์ ์ด ์ด๋ ๊ฒ ์ข์ text๋ฅผ ์ถ๋ ฅํ ์ ์๊ฒ ํ๋์ง๋ ์์ธํ ์ ์ํ ์ ์์๋ค. ์๋ํ๋ฉด LM์ด subjectiveํ๊ณ context dependentํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด LM์ ์์ฉํ ์ฌ๋ก๋ ์ ๋ง ๋ง์๋ฐ, ์ฐฝ์์ฑ์ ํ์๋ก ํ๋ ์์ค ์ฐ๊ธฐ, ์ง์ค์ฑ์ ํ์๋ก ํ๋ ์ ๋ณด ์ ๋ฌ, ์คํ ๊ฐ๋ฅํ ์ฝ๋ ์์ฑ๊ณผ ๊ฐ์ ์๋ค์ด ์๋ค.
์์คํจ์๋ฅผ ์์ฑํด์ ์ด๋ฌํ ํน์ฑ๋ค์ ๋์ง์ด๋ด๋ ๊ฑด ๋งค์ฐ ์ด๋ ค์ ๋ณด์ด๊ณ , ๋ง์ LM๋ค์ ์์ง๋ ๋งค์ฐ ๊ฐ๋จํ next token prediction loss๋ฅผ ํตํ์ฌ ํ์ต๋๊ณ ์๋ค. ์ด๋ฌํ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด, ์ฌ๋๋ค์ ์ฌ๋์ ์ ํธ๋ฅผ ๋์ฑ ์ ์ก์๋ด๊ธฐ ์ํ ๋ฐฉ๋ฒ์ธ BLEU์ ROUGE๋ฅผ ๊ฐ๋ฐํ์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ด์ ์ ์์ค ํจ์๋ณด๋ค ์ฑ๋ฅ์ ์ธก์ ํ ๋ ๋ ์ ํฉํ์ง๋ง ์ด๋ฌํ ๋ฐฉ์์ ์์ฑ๋ ํ ์คํธ๋ฅผ ๊ฐ๋จํ ๊ท์น์ด ์๋ ์ฐธ์กฐ์ ๋จ์ํ ๋น๊ตํ๋ฏ๋ก ์ ํ์ ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ์์ฑ๋ ํ ์คํธ์ ๋ํด ์ฌ๋์ ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ๋ฉด ์ด๋จ๊น? ํ ์ ๋ ๋ ์ ์ด ํผ๋๋ฐฑ์ loss๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ต์ ํ์ํค๋ฉด ์ด๋จ๊น? ์ด๊ฒ์ด ๋ฐ๋ก Reinforcement Learning from Human Feedback ์ฆ, RLHF์ ๊ธฐ๋ณธ ์๋ฆฌ์ด๋ค: ๊ฐํ ํ์ต์ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ฌ๋์ ํผ๋๋ฐฑ๊ณผ ํจ๊ป LM์ ์ต์ ํ ์ํค๋ ๊ฒ์ด๋ค. RLHF๋ ๋จ์ํ ํ ์คํธ๋ก๋ถํฐ ํ์ต๋ LM์ด ์ข ๋ ๋ณต์กํ ์ฌ๋์ ๊ฐ์น์ ๋ฐ๋ผ ์กฐ์ ๋ ์ ์๋๋ก ํด์ค๋ค.
RLHF์ ๊ฐ์ฅ ์ฑ๊ณตํ ์ฌ๋ก ์ค ํ๋๋ ๋ฐ๋ก ChatGPT์ด๋ค. ์ฌ์ค ์ด ํฌ์คํธ๋ฅผ ์์ฑํ๊ณ ์๋ ์ด์ ๋ ChatGPT์ ์ฌ์ฉ๋ InstructGPT์ ๋ํด ๊ณต๋ถํด๋ณด๊ธฐ ์ํด, ์ ํ์ผ๋ก ํ์ํ ๊ณผ์ ์ธ RLHF์ ๋ํด ๊ณต๋ถํ๊ธฐ ์ํด์์ด๋ค. ๋ค์ ๋ณธ๋ก ์ผ๋ก ๋์์์, ChatGPT๋ ์ค๋ก ์์ฒญ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋๋ฐ, ์ด ChatGPT์ ์ฌ์ฉ๋ ๊ธฐ์ ์ธ RLHF์ ๋ํด ์ข ๋ ์์ธํ๊ฒ ๋ค๋ค๋ณด๊ฒ ๋ค.
RLHF: ์ฐจ๋ก์ฐจ๋ก ์ดํด๋ณด์!
RLHF๋ ๋งค์ฐ ์ด๋ ค์ด ์ฃผ์ ์ธ๋ฐ, ์๋ํ๋ฉด ์ฌ๋ฌ ๋จ๊ณ์ ํ์ต ํ๋ก์ธ์ค์ ์๋ก ๋ค๋ฅธ ์ ๊ฐ ๋จ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ณธ ํฌ์คํธ์์๋ ์ด ํ์ต ํ๋ก์ธ์ค๋ฅผ 3๊ฐ์ ํต์ฌ ์คํ ์ผ๋ก ์ชผ๊ฐ์ ์ค๋ช ํ๊ณ ์ ํ๋ค.
- LM Pre-training ํ๊ธฐ
- ๋ฐ์ดํฐ ์์ง ๋ฐ reward model ํ์ต
- LM์ ๊ฐํํ์ต์ ์ด์ฉํ์ฌ fine-tuning
์์ํ๊ธฐ์ ์์, ์ด๋ป๊ฒ LM์ด pre-train๋๋์ง ์ดํด๋ณด๋๋ก ํ์.
Pre-training LM
RLHF๋ ๊ธฐ์กด์ LM๋ค๊ณผ ๋๊ฐ์ด, ์ผ๋ฐ์ ์ธ pre-training ๋ชฉํ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. OpenAI์์๋ ์กฐ๊ธ ์์ ๋ฒ์ ์ GPT-3์ ์ฌ์ฉํ์ฌ, ์ ๋ช ํ RLHF ๋ชจ๋ธ์ธ InsrtucGPT๋ฅผ ๊ฐ๋ฐํ์๋ค.
์ด๋ฌํ ์ด๊ธฐ์ ๋ชจ๋ธ๋ค์ ์ถ๊ฐ์ ์ธ ํ ์คํธ ๋๋ ์ํฉ์ ๋ฐ๋ผ fine-tuning ๋ ์ ์์ง๋ง, ๊ตณ์ด ๊ทธ๋ฌ์ง ์์๋ ๋๋ค. ์๋ฅผ ๋ค์ด, OpenAI๋ ์ฌ๋์ด ์์ฑํ ํ ์คํธ๋ฅผ ์ด์ฉํ์ฌ fine-tuning ํ์์ง๋ง, ์ด๋ ๊ธฐํธ์ ๋ฐ๋ผ ํ์ง ์์ ์๋ ์๋ ๊ฒ์ด๋ค. ์๋ํ๋ฉด, ์ด ๊ณผ์ ์ ๋ง์ ๋น์ฉ์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ค์์ผ๋ก, LM๊ณผ ํจ๊ป, reward model์ ์ค๊ณํ ํ์๊ฐ ์๋ค. ์ด reward model์ ์ธ๊ฐ์ ๊ธฐํธ๊ฐ ์์คํ ์ ํตํฉ๋๊ฒ ํด์ค๋ค.
Reward model ํ์ต
์ฌ๋์ ์ ํธ๋๋ก ์กฐ์ ๋ reward model$($RM$)$์ ์์ฑํ๋ ๊ฒ์ RLHF์์ ์๋์ ์ผ๋ก ์๋ก์ด ์ฐ๊ตฌ๊ฐ ์์๋๋ ๊ณณ์ด๋ค. ๊ทผ๋ณธ์ ์ธ ๋ชฉํ๋ ๋ชจ๋ธ ๋๋ ์์คํ ์ด text sequence๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์ฌ๋์ ์ ํธ๋๋ฅผ ์ซ์๋ก ํํํ ์ค์นผ๋ผ ๊ฐ์ ์ป๋ ๊ฒ์ด๋ค. ์ด ์์คํ ์ end-to-end LM ๋๋ reward๋ฅผ ์ถ๋ ฅํ๋ ๋ชจ๋์ ์์คํ ์ผ ์๋ ์๋ค. $($์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์์๋ฅผ ๋งค๊ธฐ๊ณ , ์์๋ reward๋ก ๋ณํ๋๋ค.$)$ ์ค์นผ๋ผ reward์ธ ์ถ๋ ฅ์ RLHF ํ๋ก์ธ์ค์์ ๋์ค์ ์ํํ๊ฒ ํตํฉ๋๋ ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ์ ๋งค์ฐ ์ค์ํ๋ค.
์ด๋ ๊ฒ reward modeling์ ์ํ LM์ ๋ ๋ค๋ฅธ fine-tuned LM์ด๊ฑฐ๋ ์ ํธ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ฒ์๋ถํฐ ํ์ต๋ LM์ด ๋๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด, Anthropic์ fine-tuning๋ณด๋ค ์ํ์ด ๋ ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ์์๊ธฐ ๋๋ฌธ์ ์ฌ์ ํ๋ จ ํ ์ด๋ฌํ ๋ชจ๋ธ์ ์ด๊ธฐํํ๊ธฐ ์ํด fine-tuning์ ํน์ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง๋ง reward modeling์ ์ด๋ค ๋ณํ๋ ๋ช ํํ ์ต๊ณ ๋ก ๊ฐ์ฃผ๋์ง ์์๋ค.
RM์ ์ํ prompt-generation ์ง์ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฌ์ ์ ์ ์๋ ๋ฐ์ดํฐ์ ์์ ์ํ๋ง์ ํตํด ์ ์๋์๋ค. prompt๋ ์๋ก์ด ํ ์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ด๊ธฐ์ LM ์์ ์ง๋๊ฐ๋ค.
human annotator๋ LM์ผ๋ก๋ถํฐ ์์ฑ๋ ํ ์คํธ ์ถ๋ ฅ์ ํ๊ฐํ๋ค. ์ฌ๋์ด ๋ฐ๋ก ์ค์นผ๋ผ ๊ฐ์ ์ ์๋ก ๋งค๊ธธ ์ ์๋ค๋ฉด ์ข๊ฒ ์ง๋ง, ์ด๋ ๋งค์ฐ ํ๋ค๋ค. ์ฌ๋๋ง๋ค ๋ค๋ฅธ ๊ฐ์น์ ๊ฐ๋ ๋๋ฌธ์, ์ด ์ ์์ ์ก์์ ์์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ ๋์ ์, ์ฌ๋ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก ๋ ๋์ ์ ๊ทํ๋ ๋ฐ์ดํฐ์ ์ ์์ฑํด๋ธ๋ค.
ํ ์คํธ์ ๋ญํน์ ๋งค๊ธฐ๋ ๋ฐฉ๋ฒ์๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์๋๋ฐ, ๊ฐ์ฅ ์ฑ๊ณต์ ์ธ ๋ฐฉ๋ฒ์ ๋๊ฐ์ prompt์ ์ํด condition๋ 2๊ฐ์ LM์ด ์์ฑํ ํ ์คํธ๋ฅผ ๋น๊ตํ๋ ๋ฐฉ์์ด๋ค. ์ผ๋์ผ ๋งค์น์ ์์ ๋ชจ๋ธ ์ถ๋ ฅ์ ๋น๊ตํจ์ผ๋ก์จ Elo ์์คํ ์ ์ฌ์ฉํ์ฌ ์๋ก ์๋์ ์ธ ๋ชจ๋ธ ๋ฐ ์ถ๋ ฅ์ ์์๋ฅผ ์์ฑํ ์ ์๋ค. ์ด๋ ๊ฒ ๋ญํน์ ๋งค๊ธฐ๋ ์๋ก ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ํ์ต์ ์ํด ์ค์นผ๋ผ reward signal๋ก ์ผ๋ฐํ๋๋ค.
์ฑ๊ณต์ ์ธ RLHF ์์คํ ์ ํฅ๋ฏธ๋ก์ด ์ ์ text generation์ ๋ฐ๋ผ ์๋์ ์ผ๋ก ๋ค์ํ ํฌ๊ธฐ์ reward lanugage model์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ preference model์ ํด๋น ํ ์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ชจ๋ธ์ด ํ์๋ก ํ๋ ๊ฒ์ฒ๋ผ ๊ทธ๋ค์๊ฒ ์ฃผ์ด์ง ํ ์คํธ๋ฅผ ์ดํดํ๋ ์ ์ฌํ ๋ฅ๋ ฅ์ ๊ฐ์ ธ์ผ ํ๋ค.
RLHF ์์คํ ์ ์ด ์์ ์์, ์ฐ๋ฆฌ๋ ํ ์คํธ์ preference model์ ์์ฑํ ์ ์๋ ์ด๊ธฐ์ LM์ ๊ฐ์ง๊ณ ์๋ค. ์ฌ๊ธฐ์ preference model์ ๋ชจ๋ ํ ์คํธ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ์ฌ๋์ด ๊ทธ๊ฒ์ ์ผ๋ง๋ ์ ์ธ์ํ๋์ง์ ๋ํ ์ ์๋ฅผ ๋งค๊ธด๋ค. ๋ค์์ผ๋ก, ๊ฐํํ์ต$($RL; reinforcement learning$)$์ ์ฌ์ฉํ์ฌ ๊ธฐ์กด์ LM์ RM์ ๋ํ์ฌ ์ต์ ํ ์ํจ๋ค.
RL์ ์ฌ์ฉํ Fine-tuning
๊ฐํํ์ต์ ์ฌ์ฉํ์ฌ LM์ ํ์ต์ํค๋ ๊ฒ์ ๊ธฐ์ ์ ์ผ๋ก๋ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ค๊ณ ์ฌ๊ฒจ์ก๋ค. ๊ทธ๋์ ์๋ ๋์๋ ๋ฐฉ๋ฒ์ ์ ์ฑ ๊ทธ๋ผ๋ฐ์ด์ RL ์๊ณ ๋ฆฌ์ฆ์ธ PPO$($Proximal Policy Optimization$)$๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐ LM ์ฌ๋ณธ์ ์ผ๋ถ ๋๋ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ฒ์ด์๋ค. LM์ ํ๋ผ๋ฏธํฐ๋ค์ ๋ณ๋ํ์ง ์๋๋ฐ ์๋ํ๋ฉด, ๊ฑฐ๋ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ fine-tuningํ๋ ๊ฒ์ ๋น์ฉ์ด ๋งค์ฐ ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ด๋ค. PPO๋ ๋น๊ต์ ์ค๋ซ๋์ ์ฌ์ฉ๋์ด์๋ค. ์ด PPO์ relative maturity๋ RLHF์ ๋ํ ๋ถ์ฐ ํ๋ จ์ ์๋ก์ด ์ ์ฉ์ผ๋ก ํ์ฅํ๋ ๋ฐ ์ ๋ฆฌํ ์ ํ์ด ๋์๋ค. RLHF๋ฅผ ์ํํ๊ธฐ ์ํ ๋ง์ ํต์ฌ RL ๋ฐ์ ์ ์น์ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ด๋ฌํ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ์ ์์๋ธ ๊ฒ์ผ๋ก ๋ฐํ์ก๋ค.
์ด์ ์ด fine-tuning task๋ฅผ RL ๋ฌธ์ ๋ก ๊ณ ์ํด๋ณด๋๋ก ํ์. ์ฒซ ๋ฒ์งธ๋ก, prompt๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ text sequence๋ฅผ ์ถ๋ ฅํ๋ LM์ policy์ด๋ผ ํ๋ค. ์ด๋ฌํ policy์ action space๋ LM์ vocabulary์ ๋์ํ๋ ๋ชจ๋ ํ ํฐ์ ์๋ฏธํ๊ณ , observation space๋ ๊ฐ๋ฅํ ์ ๋ ฅ token sequence๋ฅผ ์๋ฏธํ๋ค. ๊ทธ๋ฆฌ๊ณ reward function์ ์ ํธ๋ ๋ชจ๋ธ๊ณผ ์ ์ฑ ๋ณํ์ ๋ํ ์ ์ฝ์ ์กฐํฉ์ด๋ค.
์ฌ๊ธฐ์ reward function์ ๋ชจ๋ ๋ชจ๋ธ์ ํ๋์ RLHF ํ๋ก์ธ์ค๋ก ๋ฌถ๋ ์์คํ ์ ์๋ฏธํ๋ค. ๋ฐ์ดํฐ์ ์์ prompt $x$๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ ๊ฐ์ ํ ์คํธ $y1, y2$๊ฐ ์์ฑ๋๋ค - ํ๋๋ ์ด๊ธฐ์ LM๋ก๋ถํฐ ๋์จ ๊ฒ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ fine-tuned policy์ ํ์ฌ ๋ฒ์ ์์ ๋์จ ๊ฒ์ด๋ค. ํ์ฌ์ policy๋ก๋ถํฐ ๋์จ ํ ์คํธ๋ ์ค์นผ๋ผ ๊ฐ '์ ํธ๋' $r_{\theta}$๋ฅผ ๋๋ ค์ฃผ๋ preference model๋ก ๋ค์ด๊ฐ๊ฒ ๋๋ค. ์ด ํ ์คํธ๋ ์ด๊ธฐ์ model๋ก๋ถํฐ ๋์จ ํ ์คํธ์ ๋น๊ตํ์ฌ ๋ ํ ์คํธ ๊ฐ์ ์ฐจ์ด์ ๋ํ ํ๋ํฐ๋ฅผ ๊ณ์ฐํ๋ค. OpenAI์ ๋ง์ ๋ ผ๋ฌธ๋ค์์๋ ์ด ํ๋ํฐ๋ฅผ ํ ํฐ $r_{KL}$์ ๋ํ ๋ถ๋ฐฐ ์ํ์ค ๊ฐ์ Kullback–Leibler$($KL$)$ divergence์ ํ์ฅ๋ ๋ฒ์ ์ผ๋ก ์ค๊ณํ์๋ค. KL divergence๋ RL ์ ์ฑ ์ด ๊ฐ ํ๋ จ ๋ฐฐ์น๊ฐ ์๋ ์ด๊ธฐ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์์ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๋๋ก ํจ๋ํฐ๋ฅผ ์ค๋ค. ์ด๋ ๋ชจ๋ธ์ด ํฉ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ text snippet์ ์ถ๋ ฅํ๋์ง ํ์ธํ๋ ๋ฐ ์ ์ฉํ ์ ์๋ค. ์ด๋ฌํ ํ๋ํฐ๊ฐ ์์ผ๋ฉด, optimization์ ํก์ค์์คํ ํ ์คํธ๋ฅผ ์์ฑํ์ง๋ง, RM์ ์์ฌ์ ๋์ reward๋ฅผ ๋ฐ์ ์ ์๊ฒ ๋๋ค. ์ค์ ๋ก KL divergence๋ ๋ ๋ถํฌ์ ์ํ๋ง์ ํตํด ๊ทผ์ฌํ๋๋ค. RL ์ ๋ฐ์ดํธ ๊ท์น์ผ๋ก ์ ์ก๋๋ ๋ง์ง๋ง reward๋ $r = r_{\theta} - \lambda r_{KL}$์ด๋ค.
์ด๋ค RLHF ์์คํ ์ reward function์ ์ถ๊ฐ์ ์ธ term์ ๋ฃ๊ธฐ๋ ํ๋ค. ์๋ฅผ ๋ค์ด, OpenAI๋ InstructGPT์์ PPO์ ๋ํ ์ ๋ฐ์ดํธ ๊ท์น์ ์ถ๊ฐ์ ์ธ ์ฌ์ ํ์ต๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ์์์ผ๋ก์จ ์ฑ๊ณต์ ์ธ ์คํ์ ์งํํ์๋ค. RLHF๊ฐ ๊ณ์ ๋ฐ์ ๋์ด์ผ ํ๋ ๊ฒ์ฒ๋ผ ์ด reward function๋ ๋์์์ด ์งํํด์ผ ํ๋ค.
๋ง์ง๋ง์ผ๋ก, update rule์ ํ์ฌ ๋ฐ์ดํฐ ๋ฐฐ์น์ reward metrics๋ฅผ ์ต๋ํํ๋ PPO์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ์ด๋ค. PPO๋ ์ ๋ขฐ ์์ญ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ธฐ์ธ๊ธฐ์ ์ ์ฝ์ ๊ฑธ์ด ํ์ต ํ๋ก์ธ์ค๋ฅผ ๋ถ์์ ํ๊ฒ ํ์ง ์๋๋ก ์ ๋ฐ์ดํธ ์คํ ์ ๋ณด์ฅํ๋ค.
์ด์ RLHF๋ ์ด ์์ ๋ถํฐ reward model์ policy์ ์ ๋ฐ์ดํธ๋ฅผ ๋ฐ๋ณตํ๋ ๊ฒ์ผ๋ก ๊ณ์ํ ์ ์๋ค. RL policy๊ฐ ์ ๋ฐ์ดํธ ๋จ์ ๋ฐ๋ผ, ์ ์ ๋ค์ ๋ชจ๋ธ์ ์ด์ ๋ฒ์ ๊ณผ ์ง๊ธ ๋ฒ์ ์ ์ถ๋ ฅ์ ๋น๊ตํ์ฌ ๋ญํน์ ๋งค๊ธฐ๋ ๊ฒ์ ๊ณ์ํ ์ ์๋ค. ์ด๋ฌํ ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๋ฐ ํ์ํ deployment mode๋ ์ฐธ์ฌ ์ฌ์ฉ์ ๊ธฐ๋ฐ์ ๋ํ ์ก์ธ์ค ๊ถํ์ด ์๋ ๋ํ ์์ด์ ํธ์๋ง ์๋ํ๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ์ ๋ฌธ์์์๋ ์์ง ์ด ์์ ๊ตฌํ์ ๋ํด ๋ ผ์๋์ง ์์๋ค.
RLHF, ๊ทธ ๋ค์์?
RLHF๋ ์ ๋งํจ๊ณผ ์ํฉํธ๋ฅผ ๋ณด์ฌ์ค์ผ๋ก์จ ์ฌ๋ฌ ๊ฑฐ๋ํ AI lab์ ๊ด์ฌ์ ๋๊ณ ์์ง๋ง, ์ฌ๊ธฐ์๋ ๋ช ํํ ์ ์ฝ์ด ์๋ค. ๋ชจ๋ธ์ ๋ ๋์ ๋ฐ๋ฉด ์ฌ์ ํ ์ ํดํ๊ฑฐ๋ ์ฌ์ค์ ์ผ๋ก ๋ถ์ ํํ ํ ์คํธ๋ฅผ ๋ถํ์ค์ฑ ์์ด ์ถ๋ ฅํ ์ ์๋ค. ์ด๋ฌํ ๊ฒฐ์ ์ RLHF์๊ฒ ์์ผ๋ก์ ๋์ ๊ณผ์ ์ ๋๊ธฐ๋ฅผ ์ฃผ๊ฒ ๋ ๊ฒ์ด๋ค. ๋ณธ์ง์ ์ผ๋ก ์ธ๊ฐ์ ๋ฌธ์ ์์ญ์์ ์๋ํ๋ค๋ ๊ฒ์ ๋ชจ๋ธ์ด ์์ ํ ๊ฒ์ผ๋ก ๋ถ๋ฅ๋๊ธฐ ์ํด ๊ต์ฐจํด์ผ ํ ๋ช ํํ ์ต์ข ์ ์ด ๊ฒฐ์ฝ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
RLHF๋ฅผ ์ด์ฉํ์ฌ ์์คํ ์ ์ฌ์ฉํ ๋, ์ฌ๋์ ์ ํธ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฒ์ ๋งค์ฐ ๋ง์ ๋น์ฉ์ ํ์๋ก ํ๋ค. RLHF๋ ์ฌ๋์ ์ฃผ์์ด ์์ ๋๋ง ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํน์ prompt์ ์๋ตํ๋ ์ ์์ฑ๋ ์ฌ๋ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ ์๊ฐ์ ์ง์์ ๊ณ ์ฉํด์ผ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค. ๊ฐ์ฌํ๊ฒ๋, ๋๋ถ๋ถ์ RLHF ์์ฉ์์ RM์ ํ์ต์ํค๋๋ฐ ํ์ํ ๋ฐ์ดํฐ์ ์์ ๊ทธ๋ ๊ฒ ๋น์ฉ์ด ๋ง์ด ๋ค์ง ์๋๋ค. ํ์ง๋ง, ์์ง๋ ํ๋ฌธ์ ๋ฉ์์ ์ฌ์ฉํ๊ธฐ์๋ ๋์ ๋น์ฉ์ด๋ค.. ํ์ฌ์๋, ์ผ๋ฐ์ ์ธ LM์ ๋ํด์ RLHF๋ฅผ ์ ์ฉํ๊ธฐ ์ํ ํ๋์ ํฐ ๋ฐ์ดํฐ์ $($Anthropic$)$๊ณผ task-specificํ ์ฌ๋ฌ ๊ฐ์ ์์ ๋ฐ์ดํฐ์ ๋ค$($OpenAI$)$์ด ์กด์ฌํ๋ค. RLHF์ ๋ํ ๋ฐํฐ์ด์ ๋ ๋ฒ์งธ ๋ฌธ์ ์ ์ human annotator๊ฐ ground truth์์ด ์ถ๊ฐํ ๋ฐ์ดํฐ๋ ํ์ต ๋ฐ์ดํฐ์ ์๋นํ ์ ์ฌ์ ์ธ ๋ถ์ฐ์ ์ถ๊ฐํ ์ ์๋ค.
๋์ฑ ์์ธํ ๋ด์ฉ์ด ์๊ณ ์ถ๋ค๋ฉด ์ด ์์์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
P.S.
๋ฌด์์ ๋ฐ๋ผ ์ฝ์ผ๋ฉด์ ์์ฑํด๋ณด๊ธด ํ์ผ๋ ์์ง ์๋ฒฝํ ์ดํดํ์ง ๋ชปํ ๋ถ๋ถ๋ค์ด ๋ง์ ๊ฒ ๊ฐ๋ค. ์ถํ์ ์ข ๋ ์์ธํ๊ฒ ๊ณต๋ถํด๋ณด๋๋ก ํ๊ฒ ๋ค!!
์ถ์ฒ
https://huggingface.co/blog/rlhf
Illustrating Reinforcement Learning from Human Feedback (RLHF)
Illustrating Reinforcement Learning from Human Feedback (RLHF) Language models have shown impressive capabilities in the past few years by generating diverse and compelling text from human input prompts. However, what makes a "good" text is inherently hard
huggingface.co