The overview of this paper
LLM์ human value๋ก align ํ๋ ๊ฒ์ LLM์ ์ ๊ตํ ์กฐ์ข ์ ๊ฐ๋ฅํ๊ฒ ํด ์ฃผ๊ธฐ ๋๋ฌธ์ ์ค์ํด์ก๋ค. ํ์ง๋ง alignment๋ ์๋นํ ์์ human demonstration๊ณผ ํผ๋๋ฐฑ์ ํ์๋ก ํ๋ค. ์ต๊ทผ์ open-source model์ ์ด๋ฏธ align ๋ InstructGPT์ ChatGPT ๊ฐ์ LLM์ผ๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ distill ํจ์ผ๋ก์จ alignment learning ํ๋ก์ธ์ค๋ฅผ ๋ณต์ ํ์๋ค. ์ด ํ๋ก์ธ์ค๋ ์ฌ๋์ ๋ ธ๋ ฅ์ ์ค์ฌ์ฃผ์ง๋ง, teacher model์ ์๋นํ ์์กด์ ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ฌ๋์ ๋ ธ๋์ด ๊ฑฐ์ ํ์ํ์ง ์๊ณ pre-aligned LLM์ ์์กดํ์ง ์๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์๊ฐํ์๋ค. ์ด ํ๋ ์์ํฌ์ ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ค์ํ ์ฌ์ด์ฆ์ prompt๋ฅผ ์ฌ์ฉํ๋ vanilla LLM์ผ๋ก๋ถํฐ์ ์๋ต์ ๋น๊ตํจ์ผ๋ก์จ RM์ synthetic ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ ์ํ
- supervised policy ํ์ต์ ์ํด high-quality demonstration์ ์ํ RM๊ณผ ๋ชจ๋ธ์ ์ถ๊ฐ์ ์ผ๋ก ์ต์ ํํ๊ธฐ ์ํด RL์ ์ฌ์ฉํจ
๊ฒฐ๊ณผ์ ์ผ๋ก ๋์จ ๋ชจ๋ธ์ Aligned Language Model with Synthetic Training(ALMoST)๋ open-source ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Method
3. Evaluating Alignment of ALMoST
4. Analysis
1. Introduction
๋ณดํต์ ์ ํ์ ์ธ alignment learning process๋ ์ด 3๊ฐ์ง์ ์คํ ์ด์ง๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- ์ด๊ธฐ์ policy ๋ชจ๋ธ์ human annotator์ ์ํด ์์ง๋ supervised demonstration์ ์ฌ์ฉํ์ฌ ํ์ต์ํด
- ๋๊ฐ์ input prompt์ ๋ํ ๋ค์ํ ๋ชจ๋ธ output ๊ฐ์ human comparison์ ์ฌ์ฉํ๋ Reward Modeling ์งํ. ์ด๋ฅผ ํตํด ๊ฒฐ๊ณผ๋ก ๋์จ RM์ human preference์ ๋ฐ๋ผ ์ด๋ค model output์ด ๋์์ง ํ๋จ ๊ฐ๋ฅํจ
- RL์์ RM์ human value alignment๋ฅผ ์ํ ์ด๊ธฐ policy ๋ชจ๋ธ์ ๊ฐ์ด๋ํ๋๋ฐ ์ฌ์ฉํจ
ํ์ง๋ง ์ด 3-stage training recipe๋ ํนํ ์ฒซ 2๊ฐ์ ์คํ ์ด์ง์ ๋ํด์ ์๋นํ ์ฌ๋์ ๋ ธ๋ ฅ์ด ํ์ํ๋ค. ๋์ฑ ๊ตฌ์ฒด์ ์ผ๋ก SFT์ RM training์ ํ๋ถํ high-quality human demonstration๊ณผ ranking dataset์ ๊ฐ์ ธ์ผ๋ง ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ต์ํ์ human ๋ผ๋ฒจ๋ง์ ํ์๋ก ํ๊ณ , pre-aligned LLM์ ์์กดํ์ง ์๋ alignment learning์ ๋ํ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์๊ฐํ์๋ค. ์ ํต์ ์ธ alignment learning ํ๋ก์์ ์ ๋ฌ๋ฆฌ ์ด ๋ฐฉ๋ฒ์ ๊ทธ๋ฆผ 1์ฒ๋ผ ๋ค์ํ ์ฌ์ด์ฆ์ prompt์ vanilla LLM์ผ๋ก๋ถํฐ output์ ์ฌ์ฉํ๋ ํตํฉ ๋น๊ต ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ค. ๋ ผ๋ฌธ์์๋ ๋ ๋์ ํ๋ฆฌํฐ๋ฅผ ์ป๊ธฐ ์ํ ์๋ต ๊ธธ์ด๋ฅผ ๊ณ ๋ คํ๋ ์คํ์ ์ผ๋ก ๋์์ธ๋ ํด๋ฆฌ์คํฑ ํํฐ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด ํด๋ฆฌ์คํฑ ํํฐ์ ์ญํ ์ RNN์ ์ฑ๋ฅ์ ๋งค์ฐ ์ค์ํ๋ค. synthetic comparison์์ ํ์ต๋ RM์ fully-supervised ๋ชจ๋ธ์ 90% ์ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ ๋ฒ์งธ ์คํ ์ด์ง์์๋, high-quality demonstration์ ์๋์ ์ผ๋ก ์์ฑํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ธ Reward-Model-guided Self-Play(RMSP)๋ฅผ ์๊ฐํ์๋ค. ์ด๊ฒ์ ๋์ค์ supervised policy model์ ํ์ต์ํค๋ ๋ฐ ์ฌ์ฉ๋ ์ ์๋ค. ์ค์ํ ์ถ๊ฐ์ ์ธ ์์๋ ์์ฑ๋ output์ ๋ํด rejection sampling์ ์ฌ์ฉํ model-to-model ๋ํ์ ํ๋ฆฌํฐ๋ฅผ ๋ณด์ฅํด ์ฃผ๋ ์ด์ ์คํ ์ด์ง๋ก๋ถํฐ synthetic RM์ ํ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ LLaMA-7B๋ฅผ synthetic comparison์์ ํ์ต์ํค๊ณ synthetis RM์ reward๋ก ๋ชจ๋ธ์ ์ต์ ํํ๋ Reinforcement Learning from Synthetic Feedback(RLSF)๋ฅผ ์ฌ์ฉํ์๋ค.
๋ ผ๋ฌธ์ main contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- synthetic feedback์ ์๊ฐํจ์ผ๋ก์จ ์๋ก์ด alignment learning ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์. ์ด๊ฒ์ human feedback๊ณผ pre-aligned LLM์ ์์กดํ ํ์ ์์ด ์๋์ ์ผ๋ก high-quality comparison์ ๋ง๋ฆ.
- ALMoST๋ ๋ค์ํ ํ๊ฐ์์ human value์ ์ align๋๋ ํน์ฑ์ ๋ณด์ฌ์คฌ์
- ALMoST-7B๋ Alpaca-13B, Dolly-v2, OpenAssitant-12B๋ฅผ ๋ฅ๊ฐํจ. GPT-4๋ฅผ ํ์ฉํ๋ A/B test์์ ํ๊ท ์ ์ผ๋ก 75% ์ ๋์ winning rate๋ฅผ ๋ณด์ฌ์คฌ์
2. Method
๊ทธ๋ฆผ 2์ ํ๋ ์์ํฌ์ ์ ๋ฐ์ ์ธ ๊ฐ์๊ฐ ๋ณด์ฌ์ง๊ณ ์๋ค.
2-1. Step 1: Reward Modeling with Synthetic Feedback
์ ํ์ ์ธ method์ ๋ฌ๋ฆฌ RM์ ํ์ต์ํค๊ธฐ ์ํด synthetic comparison ๋ฐ์ดํฐ์ ์ ์์ฑํ์๋ค.
Prompted Baseline. ๋น๊ต๋ฅผ ์ํ availableํ aligned baseline์ ๊ฐ์ง๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ HHH๋ฅผ prompt ํด์ LLaMA๋ฅผ ํ์ต์ํค๊ณ synthetic comparison์ ์์ฑํ์๋ค.
Generating Synthetic Comparison. human feedback์ ์์งํ๋ ๋์ ์ ์คํ์ ๊ด์ฐฐ์ ๋ฐ๋ฅด๋ naiveํ ์ถ์ ์ ๊ธฐ๋ฐํ synthetic comparison๋ฅผ ์์ฑํ์๋ค. ์์ฝํด ๋ณด๋ฉด ์๋ต์ ํ๋ฆฌํฐ๋ ๋ค์์ ๊ท์น์ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ์ ์๋ค.
- Larger model > Smaller model
- More few-shots > Less few-shots
- Better demonstration > Worse demonstration
๋๊ฐ์ input $x$์ ๋ํด ๋ค์ํ ๊ตฌ์ฑ์ ๊ฐ์ง๋ ๋ชจ๋ธ๋ก๋ถํฐ ์๋ต $Y = \left\{ y_{1}, y_{2}, \cdots, y_{|Y|}\right\}$๋ฅผ ์ํ๋งํ๋ค. ๊ทธ๋ค์์ ์์ฑ๋ ์๋ต ์ค ๋ ๋์ ์๋ต์ ๊ณ ๋ฅด๊ธฐ ์ํ rule์ ์ ์ฉํ๋ค. ๋์ฑ ๊ตฌ์ฒด์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ ๋น๊ต๋ฅผ ์ํด {7, 13, 30}B LLM๊ณผ {1, 3, 5} shots HHH demonstration์ ๊ตฌ์ฑ์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ ๊ฒ์ฒ๋ผ ๋ง์ฝ 30B w/ 5-shots, 13B w/ 3-shots, 7B w/ 1-shot์ผ๋ก๋ถํฐ ์๋ต์ ์ํ๋งํ๋ฉด ๋ญํน์ rule of thumb์ ๋ฐ๋ผ $y_{1} > y_{2} > y_{3}$๊ฐ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ค์์ $\left\{ (y_1, y_2), (y_2, y_3), (y_1, y_3)\right\}$์ 2์งํ๋ ์ธํธ๋ฅผ ์ป์ ์ ์๋ค. ์ฌ๊ธฐ์ ์ ์๋ 'chosen' ์๋ต์ด๊ณ , ํ์๋ 'rejected' ์๋ต์ด๋ค.
Post Validation. ๋ฐ์ดํฐ์ ์ ๋ ธ์ด์ฆ๋ reward modeling์ ๋ถ์์ ํ๊ณ ๊ฐ๋ผ์ง๊ฒ ๋ง๋ ๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ๋ ธ์ด์ฆ๋ฅผ ํํฐ๋งํ๊ธฐ ์ํด post validation method๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
์ฒซ ๋ฒ์งธ๋ก ๋ ผ๋ฌธ์์๋ ์ด์ ์ง์์ ๊ธฐ๋ฐํ๋ Heuristic Filter(HF)๋ฅผ ๊ณ ์ํ์๋ค. ์ด method๋ "I don't know" ๋๋ "well"๊ณผ ๊ฐ์ ํค์๋๋ก ์์ํ๊ฑฐ๋ ํฌํจํ๋ bad ์๋ต์ ๋ฒ๋ ค๋ฒ๋ฆฐ๋ค. ๋ํ ๋ ผ๋ฌธ์์๋ ์ข์ ํ๋ฆฌํฐ์ ์๋ต์ ์ ์ข์ ๋ฌธ์ฅ๋ณด๋ค ๋ ๊ธด ๋ฌธ์ฅ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๋ฐ๋ผ์ ์๋ต์ ๊ธธ์ด๊ฐ ์งง์ผ๋ฉด ์ค๋ฅ๋ฅผ ๋ฒํ๋ ์๋ต์ ์์ฑํ๋ ๊ฒฝํฅ์ด ์๋ค๊ณ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, RM์ ์ค์ง ๊ธด ์๋ต๋ค์ ๋น๊ต์์ ํ์ต์ํค๋ ๊ฒ์ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ด ๊ธธ์ด์ ํธํฅ์ ์ผ ์ ์๊ฒ ๋ง๋ค ์๋ ์๋ค. ๋ฐ๋ผ์, ๋ ผ๋ฌธ์์๋ rejected ์๋ต๊ณผ $M-S/2$ ๋ณด๋ค ๊ธด chosen ์๋ต์ conparison pair๋ฅผ ๋ฐ์์ HF๋ฅผ ์ ์ฉํ์๋ค. ์ฌ๊ธฐ์ $M$์ ํ๊ท ์ ์๋ฏธํ๊ณ , $S$๋ $Y$์ ๊ธธ์ด์ ํ์คํธ์ฐจ๋ฅผ ์๋ฏธํ๋ค. ์ด๋ฌํ ๊ธธ์ด ์ ์ฝ์ ๊ฐ ์๋ต์ ๊ธธ์ด๊ฐ ์ ๋ขฐ ๊ตฌ๊ฐ์ ์๋์ง ํ์ธํจ์ผ๋ก์จ short-generation์ ํ๋ฅ ๋ก ์ ์์ฑ ์ค๋ฅ์ ํ๋ฅ ์ ์ค์ฌ์ฃผ๊ณ length bias์ ๋น ์ง์ง ์๊ฒ ํด ์ค๋ค.
๋ ๋ฒ์งธ๋ก ๊ฐ๋ฅํ๋ฉด ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ๋ฐ์ดํฐ ํํฐ๋ง์ ์ํด As-is RM์ ํ์ฉํ์๋ค. ์ฌ๊ธฐ์ ๋งํ๋ 'As-is'๋ '์๋ ๊ทธ๋๋ก'์ RM์ ๋งํ๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ๋ค๋ฅธ RM์ StackExchange ๊ฐ์ communityQA ๋ฐ์ดํฐ์ ์์ ํ์ต์์ผฐ๋ค. ์ด์ ์ฐ๊ตฌ์์๋ RM์ ์ํ ๋๊ท๋ชจ pre-training์ ๋ํ ์ด๋์ ์ฐพ์ ์ ์์๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ training์ ์ํด ์ ์ฒ๋ฆฌ๋ StackExchange ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ 20K ๊ฐ๋ฅผ ์๋ธ์ํ๋ง ํด์๋ค. ์ค์ง As-is RM์ด ๊ฒฐ์ ์ ๋์ํ ๋๋ง synthetic comparison์ ์ ์งํ์๋ค.
Reward Modeling. syntheic comparison์ ๊ธฐ๋ฐํด์ RM์ ํ์ต์์ผฐ๋ค. ์ฌ์ฉํ objective๋ RM์ด ์ฃผ์ด์ง ์ฟผ๋ฆฌ์ ๋ํด conterpart baseline์ ์๋ต $y_{k}$์ ๋น๊ตํด ์๋ต $y_{j}$์ ์ ๋ฐ์ ์ธ ํ๋ฆฌํฐ์ ๋ํ ์ค์นผ๋ผ ๊ฐ์ RM $r_{\theta}$์ ์ง์ ํ๋๋ก ๋ง๋ค์ด ์คฌ๋ค. loss function์ ๋ค์๊ณผ ๊ฐ๋ค:
์ฌ๊ธฐ์ $D$๋ synthetic comparison์ training set์ด๊ณ $r_{\theta}(x, y)$๋ input $x$์ ๋ํ ์ ๋ฐ์ ์ธ ์๋ต ํ๋ฆฌํฐ $y$๋ฅผ ๋ํ๋ด๋ RM์ ์ค์นผ๋ผ ๊ฐ์ด๋ค.
2-2. Step 2: Supervised Fine-Tuning
2๋ฒ์งธ ๋จ๊ณ์์๋ high-quality demonstration์ ๊ตฌ๋ํ๊ธฐ ์ํด Reward-Model-guided Self-Play(RMSP)๋ฅผ ์ ์ํ์๋ค. simulated demonstration์ ์ด๊ธฐ์ align ๋ policy ๋ชจ๋ธ์ fine-tune ํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
Self-Play. ๊ธฐ์กด์ turn-taking Self-Play์์๋ ์ฌ์ฉ์์ assistant ๊ฐ์ ๋ํ๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์์๋ assistant๋ก LLaMA-30B-Faithful-3shot์ ์ฌ์ฉํด์ ์ด๊ธฐ ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ๊ณ , LLaMA-30B-User-3shot์ assistant์ ์๋ต์ ๋ฐ๋ฅด๊ฒ ํ์๋ค. ์ด turn-taking์ ์ต๋ ํด $T$๊น์ง ๊ณ์๋๋ค.
RM-guided Self-Play(RMSP). assistant๋ก๋ถํฐ ๋์ฑ align ๋ ์๋ต์ ๋ณด์ฅํ๊ธฐ ์ํด ๋ฃจํ์ synthetic RM์ ํฌํจํ ๊ฒ์ ์ ์ํ์๋ค. ์ด ๋ฐฉ๋ฒ์ Reward-Model-guided Self-Play(RMSP)๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด ์ ์ ์์ LLaMA-30B-Faithful-3shot์ ์ฃผ์ด์ง ๋ํ ๋ฌธ๋งฅ์ ๋ํด $N$๊ฐ์ ์๋ต์ ์ํ๋งํ๋ค. ๊ทธ๋ค์์ simulation์ ์ํ ์ต์ข ์๋ต์ผ๋ก best-scored ์๋ต์ ์ ํํ๋ค. ์๋ฅผ ๋ค์ด RM์ rejection sampling์ ์ํํ๋ค. ๊ทธ ์ธ์ ํ๋ก์์ ๋ Self-Play์ ๋๊ฐ๋ค.
2-3. Step 3: Reinforcement Learning from Synthetic Feedback(RLSF)
๋ง์ง๋ง ์คํ ์ด์ง์์๋ synthetic RM์ผ๋ก๋ถํฐ reward signal์ ์ถ๊ฐ์ ์ผ๋ก align ํ๊ธฐ ์ํด RLSF๋ฅผ ์ํํ์๋ค. ์ด ์คํ ์ด์ง ์ค์, policy $\pi_{\phi}$๋ prompt $x$๊ฐ ์ฃผ์ด์ง๋ฉด ์๋ต $y$๋ฅผ autoregressive ํ๊ฒ ์์ฑํ๋ค. ๊ทธ ํ์ reward score $r_{\theta}(x, y)$๋ RM $r_{\theta}$์ ์ํด ๊ฒฐ์ ๋๋ค. training objective๋ ์์๋๋ reward๋ฅผ ์ต๋ํํ๋ ๊ฒ์ด๋ค.
์ด๊ธฐ policy $\rho$์ policy $\pi_{\phi}$ ๊ฐ์ ์ธก์ ๋ KL ํ๋ํฐ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ์ด์ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ์ ์ต์ข objective์๋ ์ถ๊ฐํ์๋ค:
3. Evaluating Alignment of ALMoST
3-1. Dataset
Datasets. ALMoST์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Static HHH alignment
- TruthfulQA
- Vicuna(GPT-4) Evaluation: ๋ค์ํ ์ฃผ์ ์์ 80๊ฐ์ ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด ๋๊ฐ์ ์ง๋ฌธ์ ๋ํด ๊ฐ๊ฐ์ ๋๋ต์ ์์ฑํ๋ค. ๊ทธ๋ค์์ GPT-4๋ ํ๊ฐ๋ฅผ ์ํ ์ ์ ํ ์ค๋ช ๊ณผ ํด๋นํ๋ ๋๋ต์ ๋ํ 1๋ถํฐ 10๊น์ง์ ์ค์นผ๋ผ ๊ฐ์ ์ค์ผ๋ก์จ ๋ ๊ฐ์ ๋๋ต์ ํ๊ฐํ๋ค.
Baselines. ๋น๊ต๋ฅผ ์ํด open-source ๋ชจ๋ธ๊ณผ ๋น๊ตํ์๋ค.
- Alpaca
- Vicuna
- Dolly-v2
- OpenAssistant(Oasst)
3-2. Results
Static HHH alignment and TruthfulQA. ALMoST๋ ํ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ aligned LLM ๋๋ ๋ฐฉ๋ํ human annotation์ผ๋ก๋ถํฐ์ ์ด๋ ํ distillation ์์ด Alpaca, Dolly-v2, OpenAssistant๋ฅผ ๋ฅ๊ฐํ์๋ค. ๋ชจ๋ ์ฌ์ด์ฆ์ ๋ํด ALMoST๋ Vicuna๋ฅผ ์ ์ธํ๊ณ ์ผ๊ด์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ALMoST์ SFT์ PPO-trained ๋ชจ๋ธ์ ๋น๊ตํ์ ๋, PPO model์ honesty๋ฅผ ์ ์ธํ๊ณ ๋ค๋ฅธ ๋ถ๋ถ์ ์ฑ๋ฅ์ ๊ฐ์ ์์ผฐ๋ค.
Vicuna(GPT-4) Evaluation. multiple-choice ๋ฌธ์ ์์์ ๋์ ์ ํ๋๋ ์ค์ align ๋ ํน์ฑ์ ๋ณด์ฅํด์ฃผ์ง ์์ ์๋ ์๋ค. ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด์๋ human ํ๊ฐ๊ฐ ๊ฐ์ฅ ์ ํํ metric์ด์ง๋ง, ๊ทธ ๋์ ์ GPT-4๋ฅผ ํ์ฉํ์ฌ Vicuna ํ๊ฐ๋ฅผ ์งํํ ์๋ ์๋ค. ์ด์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ALMoST-PPO๋ open-source ๋ชจ๋ธ์ ๋ํด ์๋นํ ๋์ win rate๋ฅผ ๋ณด์ฌ์คฌ๋ค. ๋ํ PPO๋ SFT๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ๋ณด์ RLSF๊ฐ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
4. Analysis
4-1. Alignment Tax
alignment tax๋ LLM์ alignment๋ ๋ฅ๋ ฅ์ ํฌ์์ ์ด๋๋ค๋ ๊ฒ์ด๋ค. ํ ๋ง๋๋ก unaligned vanilla model์ ๋นํด ์ฝํ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ ๋ฅ๋ ฅ์ด ์๋ค๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ alignment tas๋ฅผ ์กฐ์ฌํ๊ธฐ ์ํด MMLU & LAMBADA ํ๊ฐ๋ฅผ ์งํํ์๋ค. ํ 2์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, ํ์คํ RLSF๋ vanilla LLM์ ๋นํด ๋ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ์ ํ์์ผฐ๋ค. ์ด์ ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด 10B↓ ๋ชจ๋ธ์ ์์ฃผ ์ฌ๊ฐํ ์ฑ๋ฅ ์ ํ๋ฅผ ๊ฒช๋๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ALMoST์ backbone ๋ชจ๋ธ์ ๊ท๋ชจ๋ฅผ ๋๋ฆผ์ ๋ฐ๋ผ tax ๋ํ ์ค์ด๋ค ๊ฒ์ด๋ผ ๋ฏฟ๊ณ ์๋ค.
4-2. RM Evaluation
๋ ผ๋ฌธ์์๋ ๋ ๋ค๋ฅธ comparison dataset์ธ HH-RLHF์์ RM์ ํ๊ฐํ์๋ค.
Reward Modeling. ํ 3์์๋ synthetically ํ๊ฒ ์์ฑ๋ comparison ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋ RM์ full training ๋ฐ์ดํฐ์ ์์ ํ์ต๋ upper bound ๋ชจ๋ธ์ 90% ์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ๋ํ ALMoST๋ single-turn ์๋ธ์ ์์ fine-tune ๋ ๊ฒฐ๊ณผ์ ๋๊ฐ์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์๋ค.
Effect of Post Validation. synthetic comparison์์ ๋ ธ์ด์ฆ๋ฅผ ์ค์ด๊ธฐ ์ํ ๋ ๊ฐ์ง ์ ํ์ post-validation์ ์ํํ์๋ค. ํ 4๋ ๊ฐ ํํฐ๋ง method๊ฐ reward model์ ํ๋ฆฌํฐ์ ํฅ์์ ๊ณตํํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ๊ธธ์ด ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๋ HF๋ synthetic ๋ฐ์ดํฐ ์์ฑ์์๋ ์ค์ํ ์ญํ ์ ํ๋ค. HF๋ฅผ ์ ์ธ์ํค๋ฉด RM์ ์ฑ๋ฅ์ 10% ํฌ์ธํธ ํ๋ฝํ์๋ค.
RMSP vs Self-Play. ๋ ผ๋ฌธ์์๋ RM guidance์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด RMSP์ RM guidance๋ฅผ ์ฌ์ฉํ์ง ์๋ Self-Play๋ฅผ ๋น๊ตํ์๋ค. ํ 5์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ ํด์์ ์ป์ ์ ์์๋ค.
- RMSP๋ฅผ ์ฌ์ฉํด ํ์ต๋ SFT ๋ชจ๋ธ์ Self-Play๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ์ค์ง RMSP๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ๋ง์ด 50% ๋ณด๋ค ๋์ winning rate๋ฅผ ๋ณด์ฌ์คฌ์
- ์ข์ prompt๋ฅผ ๋ง๋๋ ๊ฒ์ ์ฅ์ ์ ํ์ . Faithful ๋์ ์ HHH prompt๋ฅผ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด ์๋นํ ํ๋ฝํจ
์ถ์ฒ
https://arxiv.org/abs/2305.13735
Aligning Large Language Models through Synthetic Feedback
Aligning large language models (LLMs) to human values has become increasingly important as it enables sophisticated steering of LLMs, e.g., making them follow given instructions while keeping them less toxic. However, it requires a significant amount of hu
arxiv.org