The overview of this paper
LLM์ human value๋ก align ํ๋ ๊ฒ์ LLM์ ์ ๊ตํ ์กฐ์ข ์ ๊ฐ๋ฅํ๊ฒ ํด ์ฃผ๊ธฐ ๋๋ฌธ์ ์ค์ํด์ก๋ค. ํ์ง๋ง alignment๋ ์๋นํ ์์ human demonstration๊ณผ ํผ๋๋ฐฑ์ ํ์๋ก ํ๋ค. ์ต๊ทผ์ open-source model์ ์ด๋ฏธ align ๋ InstructGPT์ ChatGPT ๊ฐ์ LLM์ผ๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ distill ํจ์ผ๋ก์จ alignment learning ํ๋ก์ธ์ค๋ฅผ ๋ณต์ ํ์๋ค. ์ด ํ๋ก์ธ์ค๋ ์ฌ๋์ ๋ ธ๋ ฅ์ ์ค์ฌ์ฃผ์ง๋ง, teacher model์ ์๋นํ ์์กด์ ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ฌ๋์ ๋ ธ๋์ด ๊ฑฐ์ ํ์ํ์ง ์๊ณ pre-aligned LLM์ ์์กดํ์ง ์๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์๊ฐํ์๋ค. ์ด ํ๋ ์์ํฌ์ ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ค์ํ ์ฌ์ด์ฆ์ prompt๋ฅผ ์ฌ์ฉํ๋ vanilla LLM์ผ๋ก๋ถํฐ์ ์๋ต์ ๋น๊ตํจ์ผ๋ก์จ RM์ synthetic ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ ์ํ
- supervised policy ํ์ต์ ์ํด high-quality demonstration์ ์ํ RM๊ณผ ๋ชจ๋ธ์ ์ถ๊ฐ์ ์ผ๋ก ์ต์ ํํ๊ธฐ ์ํด RL์ ์ฌ์ฉํจ
๊ฒฐ๊ณผ์ ์ผ๋ก ๋์จ ๋ชจ๋ธ์ Aligned Language Model with Synthetic Training(ALMoST)๋ open-source ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Method
3. Evaluating Alignment of ALMoST
4. Analysis
1. Introduction
๋ณดํต์ ์ ํ์ ์ธ alignment learning process๋ ์ด 3๊ฐ์ง์ ์คํ ์ด์ง๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- ์ด๊ธฐ์ policy ๋ชจ๋ธ์ human annotator์ ์ํด ์์ง๋ supervised demonstration์ ์ฌ์ฉํ์ฌ ํ์ต์ํด
- ๋๊ฐ์ input prompt์ ๋ํ ๋ค์ํ ๋ชจ๋ธ output ๊ฐ์ human comparison์ ์ฌ์ฉํ๋ Reward Modeling ์งํ. ์ด๋ฅผ ํตํด ๊ฒฐ๊ณผ๋ก ๋์จ RM์ human preference์ ๋ฐ๋ผ ์ด๋ค model output์ด ๋์์ง ํ๋จ ๊ฐ๋ฅํจ
- RL์์ RM์ human value alignment๋ฅผ ์ํ ์ด๊ธฐ policy ๋ชจ๋ธ์ ๊ฐ์ด๋ํ๋๋ฐ ์ฌ์ฉํจ
ํ์ง๋ง ์ด 3-stage training recipe๋ ํนํ ์ฒซ 2๊ฐ์ ์คํ ์ด์ง์ ๋ํด์ ์๋นํ ์ฌ๋์ ๋ ธ๋ ฅ์ด ํ์ํ๋ค. ๋์ฑ ๊ตฌ์ฒด์ ์ผ๋ก SFT์ RM training์ ํ๋ถํ high-quality human demonstration๊ณผ ranking dataset์ ๊ฐ์ ธ์ผ๋ง ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ต์ํ์ human ๋ผ๋ฒจ๋ง์ ํ์๋ก ํ๊ณ , pre-aligned LLM์ ์์กดํ์ง ์๋ alignment learning์ ๋ํ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์๊ฐํ์๋ค. ์ ํต์ ์ธ alignment learning ํ๋ก์์ ์ ๋ฌ๋ฆฌ ์ด ๋ฐฉ๋ฒ์ ๊ทธ๋ฆผ 1์ฒ๋ผ ๋ค์ํ ์ฌ์ด์ฆ์ prompt์ vanilla LLM์ผ๋ก๋ถํฐ output์ ์ฌ์ฉํ๋ ํตํฉ ๋น๊ต ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ค. ๋ ผ๋ฌธ์์๋ ๋ ๋์ ํ๋ฆฌํฐ๋ฅผ ์ป๊ธฐ ์ํ ์๋ต ๊ธธ์ด๋ฅผ ๊ณ ๋ คํ๋ ์คํ์ ์ผ๋ก ๋์์ธ๋ ํด๋ฆฌ์คํฑ ํํฐ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด ํด๋ฆฌ์คํฑ ํํฐ์ ์ญํ ์ RNN์ ์ฑ๋ฅ์ ๋งค์ฐ ์ค์ํ๋ค. synthetic comparison์์ ํ์ต๋ RM์ fully-supervised ๋ชจ๋ธ์ 90% ์ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ ๋ฒ์งธ ์คํ ์ด์ง์์๋, high-quality demonstration์ ์๋์ ์ผ๋ก ์์ฑํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ธ Reward-Model-guided Self-Play(RMSP)๋ฅผ ์๊ฐํ์๋ค. ์ด๊ฒ์ ๋์ค์ supervised policy model์ ํ์ต์ํค๋ ๋ฐ ์ฌ์ฉ๋ ์ ์๋ค. ์ค์ํ ์ถ๊ฐ์ ์ธ ์์๋ ์์ฑ๋ output์ ๋ํด rejection sampling์ ์ฌ์ฉํ model-to-model ๋ํ์ ํ๋ฆฌํฐ๋ฅผ ๋ณด์ฅํด ์ฃผ๋ ์ด์ ์คํ ์ด์ง๋ก๋ถํฐ synthetic RM์ ํ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ LLaMA-7B๋ฅผ synthetic comparison์์ ํ์ต์ํค๊ณ synthetis RM์ reward๋ก ๋ชจ๋ธ์ ์ต์ ํํ๋ Reinforcement Learning from Synthetic Feedback(RLSF)๋ฅผ ์ฌ์ฉํ์๋ค.
๋ ผ๋ฌธ์ main contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- synthetic feedback์ ์๊ฐํจ์ผ๋ก์จ ์๋ก์ด alignment learning ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์. ์ด๊ฒ์ human feedback๊ณผ pre-aligned LLM์ ์์กดํ ํ์ ์์ด ์๋์ ์ผ๋ก high-quality comparison์ ๋ง๋ฆ.
- ALMoST๋ ๋ค์ํ ํ๊ฐ์์ human value์ ์ align๋๋ ํน์ฑ์ ๋ณด์ฌ์คฌ์
- ALMoST-7B๋ Alpaca-13B, Dolly-v2, OpenAssitant-12B๋ฅผ ๋ฅ๊ฐํจ. GPT-4๋ฅผ ํ์ฉํ๋ A/B test์์ ํ๊ท ์ ์ผ๋ก 75% ์ ๋์ winning rate๋ฅผ ๋ณด์ฌ์คฌ์
2. Method
๊ทธ๋ฆผ 2์ ํ๋ ์์ํฌ์ ์ ๋ฐ์ ์ธ ๊ฐ์๊ฐ ๋ณด์ฌ์ง๊ณ ์๋ค.
2-1. Step 1: Reward Modeling with Synthetic Feedback
์ ํ์ ์ธ method์ ๋ฌ๋ฆฌ RM์ ํ์ต์ํค๊ธฐ ์ํด synthetic comparison ๋ฐ์ดํฐ์ ์ ์์ฑํ์๋ค.
Prompted Baseline. ๋น๊ต๋ฅผ ์ํ availableํ aligned baseline์ ๊ฐ์ง๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ HHH๋ฅผ prompt ํด์ LLaMA๋ฅผ ํ์ต์ํค๊ณ synthetic comparison์ ์์ฑํ์๋ค.
Generating Synthetic Comparison. human feedback์ ์์งํ๋ ๋์ ์ ์คํ์ ๊ด์ฐฐ์ ๋ฐ๋ฅด๋ naiveํ ์ถ์ ์ ๊ธฐ๋ฐํ synthetic comparison๋ฅผ ์์ฑํ์๋ค. ์์ฝํด ๋ณด๋ฉด ์๋ต์ ํ๋ฆฌํฐ๋ ๋ค์์ ๊ท์น์ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ์ ์๋ค.
- Larger model > Smaller model
- More few-shots > Less few-shots
- Better demonstration > Worse demonstration
๋๊ฐ์ input $x$์ ๋ํด ๋ค์ํ ๊ตฌ์ฑ์ ๊ฐ์ง๋ ๋ชจ๋ธ๋ก๋ถํฐ ์๋ต $Y = \left\{ y_{1}, y_{2}, \cdots, y_{|Y|}\right\}$๋ฅผ ์ํ๋งํ๋ค. ๊ทธ๋ค์์ ์์ฑ๋ ์๋ต ์ค ๋ ๋์ ์๋ต์ ๊ณ ๋ฅด๊ธฐ ์ํ rule์ ์ ์ฉํ๋ค. ๋์ฑ ๊ตฌ์ฒด์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ ๋น๊ต๋ฅผ ์ํด {7, 13, 30}B LLM๊ณผ {1, 3, 5} shots HHH demonstration์ ๊ตฌ์ฑ์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ ๊ฒ์ฒ๋ผ ๋ง์ฝ 30B w/ 5-shots, 13B w/ 3-shots, 7B w/ 1-shot์ผ๋ก๋ถํฐ ์๋ต์ ์ํ๋งํ๋ฉด ๋ญํน์ rule of thumb์ ๋ฐ๋ผ $y_{1} > y_{2} > y_{3}$๊ฐ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ค์์ $\left\{ (y_1, y_2), (y_2, y_3), (y_1, y_3)\right\}$์ 2์งํ๋ ์ธํธ๋ฅผ ์ป์ ์ ์๋ค. ์ฌ๊ธฐ์ ์ ์๋ 'chosen' ์๋ต์ด๊ณ , ํ์๋ 'rejected' ์๋ต์ด๋ค.
Post Validation. ๋ฐ์ดํฐ์ ์ ๋ ธ์ด์ฆ๋ reward modeling์ ๋ถ์์ ํ๊ณ ๊ฐ๋ผ์ง๊ฒ ๋ง๋ ๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ๋ ธ์ด์ฆ๋ฅผ ํํฐ๋งํ๊ธฐ ์ํด post validation method๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
์ฒซ ๋ฒ์งธ๋ก ๋ ผ๋ฌธ์์๋ ์ด์ ์ง์์ ๊ธฐ๋ฐํ๋ Heuristic Filter(HF)๋ฅผ ๊ณ ์ํ์๋ค. ์ด method๋ "I don't know" ๋๋ "well"๊ณผ ๊ฐ์ ํค์๋๋ก ์์ํ๊ฑฐ๋ ํฌํจํ๋ bad ์๋ต์ ๋ฒ๋ ค๋ฒ๋ฆฐ๋ค. ๋ํ ๋ ผ๋ฌธ์์๋ ์ข์ ํ๋ฆฌํฐ์ ์๋ต์ ์ ์ข์ ๋ฌธ์ฅ๋ณด๋ค ๋ ๊ธด ๋ฌธ์ฅ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๋ฐ๋ผ์ ์๋ต์ ๊ธธ์ด๊ฐ ์งง์ผ๋ฉด ์ค๋ฅ๋ฅผ ๋ฒํ๋ ์๋ต์ ์์ฑํ๋ ๊ฒฝํฅ์ด ์๋ค๊ณ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, RM์ ์ค์ง ๊ธด ์๋ต๋ค์ ๋น๊ต์์ ํ์ต์ํค๋ ๊ฒ์ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ด ๊ธธ์ด์ ํธํฅ์ ์ผ ์ ์๊ฒ ๋ง๋ค ์๋ ์๋ค. ๋ฐ๋ผ์, ๋ ผ๋ฌธ์์๋ rejected ์๋ต๊ณผ $M-S/2$ ๋ณด๋ค ๊ธด chosen ์๋ต์ conparison pair๋ฅผ ๋ฐ์์ HF๋ฅผ ์ ์ฉํ์๋ค. ์ฌ๊ธฐ์ $M$์ ํ๊ท ์ ์๋ฏธํ๊ณ , $S$๋ $Y$์ ๊ธธ์ด์ ํ์คํธ์ฐจ๋ฅผ ์๋ฏธํ๋ค. ์ด๋ฌํ ๊ธธ์ด ์ ์ฝ์ ๊ฐ ์๋ต์ ๊ธธ์ด๊ฐ ์ ๋ขฐ ๊ตฌ๊ฐ์ ์๋์ง ํ์ธํจ์ผ๋ก์จ short-generation์ ํ๋ฅ ๋ก ์ ์์ฑ ์ค๋ฅ์ ํ๋ฅ ์ ์ค์ฌ์ฃผ๊ณ length bias์ ๋น ์ง์ง ์๊ฒ ํด ์ค๋ค.
๋ ๋ฒ์งธ๋ก ๊ฐ๋ฅํ๋ฉด ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ๋ฐ์ดํฐ ํํฐ๋ง์ ์ํด As-is RM์ ํ์ฉํ์๋ค. ์ฌ๊ธฐ์ ๋งํ๋ 'As-is'๋ '์๋ ๊ทธ๋๋ก'์ RM์ ๋งํ๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ๋ค๋ฅธ RM์ StackExchange ๊ฐ์ communityQA ๋ฐ์ดํฐ์ ์์ ํ์ต์์ผฐ๋ค. ์ด์ ์ฐ๊ตฌ์์๋ RM์ ์ํ ๋๊ท๋ชจ pre-training์ ๋ํ ์ด๋์ ์ฐพ์ ์ ์์๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ training์ ์ํด ์ ์ฒ๋ฆฌ๋ StackExchange ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ 20K ๊ฐ๋ฅผ ์๋ธ์ํ๋ง ํด์๋ค. ์ค์ง As-is RM์ด ๊ฒฐ์ ์ ๋์ํ ๋๋ง synthetic comparison์ ์ ์งํ์๋ค.
Reward Modeling. syntheic comparison์ ๊ธฐ๋ฐํด์ RM์ ํ์ต์์ผฐ๋ค. ์ฌ์ฉํ objective๋ RM์ด ์ฃผ์ด์ง ์ฟผ๋ฆฌ์ ๋ํด conterpart baseline์ ์๋ต $y_{k}$์ ๋น๊ตํด ์๋ต $y_{j}$์ ์ ๋ฐ์ ์ธ ํ๋ฆฌํฐ์ ๋ํ ์ค์นผ๋ผ ๊ฐ์ RM $r_{\theta}$์ ์ง์ ํ๋๋ก ๋ง๋ค์ด ์คฌ๋ค. loss function์ ๋ค์๊ณผ ๊ฐ๋ค:
์ฌ๊ธฐ์ $D$๋ synthetic comparison์ training set์ด๊ณ $r_{\theta}(x, y)$๋ input $x$์ ๋ํ ์ ๋ฐ์ ์ธ ์๋ต ํ๋ฆฌํฐ $y$๋ฅผ ๋ํ๋ด๋ RM์ ์ค์นผ๋ผ ๊ฐ์ด๋ค.
2-2. Step 2: Supervised Fine-Tuning
2๋ฒ์งธ ๋จ๊ณ์์๋ high-quality demonstration์ ๊ตฌ๋ํ๊ธฐ ์ํด Reward-Model-guided Self-Play(RMSP)๋ฅผ ์ ์ํ์๋ค. simulated demonstration์ ์ด๊ธฐ์ align ๋ policy ๋ชจ๋ธ์ fine-tune ํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
Self-Play. ๊ธฐ์กด์ turn-taking Self-Play์์๋ ์ฌ์ฉ์์ assistant ๊ฐ์ ๋ํ๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์์๋ assistant๋ก LLaMA-30B-Faithful-3shot์ ์ฌ์ฉํด์ ์ด๊ธฐ ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ๊ณ , LLaMA-30B-User-3shot์ assistant์ ์๋ต์ ๋ฐ๋ฅด๊ฒ ํ์๋ค. ์ด turn-taking์ ์ต๋ ํด $T$๊น์ง ๊ณ์๋๋ค.
RM-guided Self-Play(RMSP). assistant๋ก๋ถํฐ ๋์ฑ align ๋ ์๋ต์ ๋ณด์ฅํ๊ธฐ ์ํด ๋ฃจํ์ synthetic RM์ ํฌํจํ ๊ฒ์ ์ ์ํ์๋ค. ์ด ๋ฐฉ๋ฒ์ Reward-Model-guided Self-Play(RMSP)๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด ์ ์ ์์ LLaMA-30B-Faithful-3shot์ ์ฃผ์ด์ง ๋ํ ๋ฌธ๋งฅ์ ๋ํด $N$๊ฐ์ ์๋ต์ ์ํ๋งํ๋ค. ๊ทธ๋ค์์ simulation์ ์ํ ์ต์ข ์๋ต์ผ๋ก best-scored ์๋ต์ ์ ํํ๋ค. ์๋ฅผ ๋ค์ด RM์ rejection sampling์ ์ํํ๋ค. ๊ทธ ์ธ์ ํ๋ก์์ ๋ Self-Play์ ๋๊ฐ๋ค.
2-3. Step 3: Reinforcement Learning from Synthetic Feedback(RLSF)
๋ง์ง๋ง ์คํ ์ด์ง์์๋ synthetic RM์ผ๋ก๋ถํฐ reward signal์ ์ถ๊ฐ์ ์ผ๋ก align ํ๊ธฐ ์ํด RLSF๋ฅผ ์ํํ์๋ค. ์ด ์คํ ์ด์ง ์ค์, policy $\pi_{\phi}$๋ prompt $x$๊ฐ ์ฃผ์ด์ง๋ฉด ์๋ต $y$๋ฅผ autoregressive ํ๊ฒ ์์ฑํ๋ค. ๊ทธ ํ์ reward score $r_{\theta}(x, y)$๋ RM $r_{\theta}$์ ์ํด ๊ฒฐ์ ๋๋ค. training objective๋ ์์๋๋ reward๋ฅผ ์ต๋ํํ๋ ๊ฒ์ด๋ค.
์ด๊ธฐ policy $\rho$์ policy $\pi_{\phi}$ ๊ฐ์ ์ธก์ ๋ KL ํ๋ํฐ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ์ด์ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ์ ์ต์ข objective์๋ ์ถ๊ฐํ์๋ค:
3. Evaluating Alignment of ALMoST
3-1. Dataset
Datasets. ALMoST์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Static HHH alignment
- TruthfulQA
- Vicuna(GPT-4) Evaluation: ๋ค์ํ ์ฃผ์ ์์ 80๊ฐ์ ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด ๋๊ฐ์ ์ง๋ฌธ์ ๋ํด ๊ฐ๊ฐ์ ๋๋ต์ ์์ฑํ๋ค. ๊ทธ๋ค์์ GPT-4๋ ํ๊ฐ๋ฅผ ์ํ ์ ์ ํ ์ค๋ช ๊ณผ ํด๋นํ๋ ๋๋ต์ ๋ํ 1๋ถํฐ 10๊น์ง์ ์ค์นผ๋ผ ๊ฐ์ ์ค์ผ๋ก์จ ๋ ๊ฐ์ ๋๋ต์ ํ๊ฐํ๋ค.
Baselines. ๋น๊ต๋ฅผ ์ํด open-source ๋ชจ๋ธ๊ณผ ๋น๊ตํ์๋ค.
- Alpaca
- Vicuna
- Dolly-v2
- OpenAssistant(Oasst)
3-2. Results
Static HHH alignment and TruthfulQA. ALMoST๋ ํ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ aligned LLM ๋๋ ๋ฐฉ๋ํ human annotation์ผ๋ก๋ถํฐ์ ์ด๋ ํ distillation ์์ด Alpaca, Dolly-v2, OpenAssistant๋ฅผ ๋ฅ๊ฐํ์๋ค. ๋ชจ๋ ์ฌ์ด์ฆ์ ๋ํด ALMoST๋ Vicuna๋ฅผ ์ ์ธํ๊ณ ์ผ๊ด์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ALMoST์ SFT์ PPO-trained ๋ชจ๋ธ์ ๋น๊ตํ์ ๋, PPO model์ honesty๋ฅผ ์ ์ธํ๊ณ ๋ค๋ฅธ ๋ถ๋ถ์ ์ฑ๋ฅ์ ๊ฐ์ ์์ผฐ๋ค.
Vicuna(GPT-4) Evaluation. multiple-choice ๋ฌธ์ ์์์ ๋์ ์ ํ๋๋ ์ค์ align ๋ ํน์ฑ์ ๋ณด์ฅํด์ฃผ์ง ์์ ์๋ ์๋ค. ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด์๋ human ํ๊ฐ๊ฐ ๊ฐ์ฅ ์ ํํ metric์ด์ง๋ง, ๊ทธ ๋์ ์ GPT-4๋ฅผ ํ์ฉํ์ฌ Vicuna ํ๊ฐ๋ฅผ ์งํํ ์๋ ์๋ค. ์ด์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ALMoST-PPO๋ open-source ๋ชจ๋ธ์ ๋ํด ์๋นํ ๋์ win rate๋ฅผ ๋ณด์ฌ์คฌ๋ค. ๋ํ PPO๋ SFT๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ๋ณด์ RLSF๊ฐ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
4. Analysis
4-1. Alignment Tax
alignment tax๋ LLM์ alignment๋ ๋ฅ๋ ฅ์ ํฌ์์ ์ด๋๋ค๋ ๊ฒ์ด๋ค. ํ ๋ง๋๋ก unaligned vanilla model์ ๋นํด ์ฝํ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ ๋ฅ๋ ฅ์ด ์๋ค๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ alignment tas๋ฅผ ์กฐ์ฌํ๊ธฐ ์ํด MMLU & LAMBADA ํ๊ฐ๋ฅผ ์งํํ์๋ค. ํ 2์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, ํ์คํ RLSF๋ vanilla LLM์ ๋นํด ๋ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ์ ํ์์ผฐ๋ค. ์ด์ ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด 10B↓ ๋ชจ๋ธ์ ์์ฃผ ์ฌ๊ฐํ ์ฑ๋ฅ ์ ํ๋ฅผ ๊ฒช๋๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ALMoST์ backbone ๋ชจ๋ธ์ ๊ท๋ชจ๋ฅผ ๋๋ฆผ์ ๋ฐ๋ผ tax ๋ํ ์ค์ด๋ค ๊ฒ์ด๋ผ ๋ฏฟ๊ณ ์๋ค.
4-2. RM Evaluation
๋ ผ๋ฌธ์์๋ ๋ ๋ค๋ฅธ comparison dataset์ธ HH-RLHF์์ RM์ ํ๊ฐํ์๋ค.
Reward Modeling. ํ 3์์๋ synthetically ํ๊ฒ ์์ฑ๋ comparison ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋ RM์ full training ๋ฐ์ดํฐ์ ์์ ํ์ต๋ upper bound ๋ชจ๋ธ์ 90% ์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ๋ํ ALMoST๋ single-turn ์๋ธ์ ์์ fine-tune ๋ ๊ฒฐ๊ณผ์ ๋๊ฐ์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์๋ค.
Effect of Post Validation. synthetic comparison์์ ๋ ธ์ด์ฆ๋ฅผ ์ค์ด๊ธฐ ์ํ ๋ ๊ฐ์ง ์ ํ์ post-validation์ ์ํํ์๋ค. ํ 4๋ ๊ฐ ํํฐ๋ง method๊ฐ reward model์ ํ๋ฆฌํฐ์ ํฅ์์ ๊ณตํํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ๊ธธ์ด ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๋ HF๋ synthetic ๋ฐ์ดํฐ ์์ฑ์์๋ ์ค์ํ ์ญํ ์ ํ๋ค. HF๋ฅผ ์ ์ธ์ํค๋ฉด RM์ ์ฑ๋ฅ์ 10% ํฌ์ธํธ ํ๋ฝํ์๋ค.
RMSP vs Self-Play. ๋ ผ๋ฌธ์์๋ RM guidance์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด RMSP์ RM guidance๋ฅผ ์ฌ์ฉํ์ง ์๋ Self-Play๋ฅผ ๋น๊ตํ์๋ค. ํ 5์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ ํด์์ ์ป์ ์ ์์๋ค.
- RMSP๋ฅผ ์ฌ์ฉํด ํ์ต๋ SFT ๋ชจ๋ธ์ Self-Play๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ์ค์ง RMSP๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ๋ง์ด 50% ๋ณด๋ค ๋์ winning rate๋ฅผ ๋ณด์ฌ์คฌ์
- ์ข์ prompt๋ฅผ ๋ง๋๋ ๊ฒ์ ์ฅ์ ์ ํ์ . Faithful ๋์ ์ HHH prompt๋ฅผ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด ์๋นํ ํ๋ฝํจ
์ถ์ฒ
https://arxiv.org/abs/2305.13735