์์ฆ์ ๋งค์ฐ ํ์ ๊ฐ ๋๊ณ ์๋ ์ฃผ์ ๊ฐ ํ๋ ์๋ค. ์๋ง๋ ๋ง์ ๋ถ๋ค์ด ํด๋ณด์ จ์๊ฑฐ๋ผ ๋ฏฟ๋๋ฐ, ๋ฐ๋ก 'ChatGPT'์ด๋ค. ํ์๋ ์ฒ์์ ๊ณต๊ฐ๋์ ๋ ํธ๊ธฐ์ฌ์ ๊ฐ๊ณ , ๋ช ๊ฐ์ง ์ง๋ฌธ๋ค์ ๋์ง๊ฑฐ๋ ์์์ฝ์ฝํ ์ด์ผ๊ธฐ๋ค์ ํ๋ ๊ฒฝํ์ด ์๋ค. ์ฒ์์๋ ๊ทธ์ ๊ฐํ ๋ฐ์ ๋์ค์ง ์์๋ค. ์ ๋ง์ด์ง ๋๋ฌด๋๋ ๋๋ผ์ด ์ ํ๋์ ์ ํ ๊ธฐ๊ณ๋ผ๊ณ ์๊ฐ๋์ง ์๋ ๋ํ์ ๋งค๋๋ฌ์ ๋๋ฌธ์ด์๋ค. ๋ฌผ๋ก , ์์ง ๋ถ์กฑํ ์ ๋ค๋ ๋ง์๋ ๊ฒ์ ์ฌ์ค์ด์ง๋ง, ๊ทธ๋ฐ ์ ์ ํฌํจํ๊ณ ๋ผ๋ ์ ๋ง์ด์ง ์์ฒญ๋ ๋ฐ์ ์ด๋ผ๊ณ ๋งํ ์ ์์๋ค. ์ฒ์์๋ ๊ทธ์ ๊ฐํ๋ง ํ์ ๋ฟ์ธ๋ฐ, ์๊ฐ์ด ์ง๋๋ฉด์ ๊ณผ์ฐ ์ด ChatGPT๋ ์ด๋ป๊ฒ ๋ง๋ค์ด์ง ๊ฑธ๊น? ๋ผ๋ ์๊ตฌ์ฌ์ ํ๊ฒ ๋์๋ค. ๊ทธ๋์ OpenAI์์ ChatGPT์ ๋ํด ์ค๋ช ์ ์ ์ด๋์ ๊ธ์ ๋ฐ๊ฒฌํ๊ณ , ์ด ๊ธ์ ์์ธํ ์ฝ์ด๋ณด์๋ค. $($๊ธ ๋งํฌ$)$ ๊ฒฐ๊ตญ์ ChatGPT๋ ๋๋ค๋ฅธ LM์ธ InstructGPT๋ฅผ ์ฌ์ฉํ์ฌ ์ ์๋์๋ค๋ ๊ฒ์ ์๊ฒ ๋์๊ณ , ์ด InstructGPT์ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๊ณ ์ถ๋ค๋ ์๊ฐ์ด ๋ค์ด์, ์ง๊ธ ์ด๋ ๊ฒ ํฌ์คํธ๋ฅผ ์์ฑํด๋ณด๋ ค๊ณ ํ๋ค.
InstructGPT์ ์ฌ์ฉ๋ ๊ฐ๋ ์ค ํ๋์ธ Reinforcement Learning with Human Feedback$($RLHF$)$์ ๋งค์ฐ ์ค์ํ ๊ฐ๋ ์ผ๋ก, ์ด ๊ฐ๋ ์ ์์ธํ ์๋ฉด ๋ ผ๋ฌธ์ ์ฝ๋๋ฐ ๋์์ด ๋๋ค.
RLHF ์ ๋ฆฌ ๋ธ๋ก๊ทธ: https://cartinoe5930.tistory.com/entry/%EC%82%AC%EB%9E%8C%EC%9D%98-%ED%94%BC%EB%93%9C%EB%B0%B1%EC%9D%84-%ED%86%B5%ED%95%9C-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-Reinforcement-Learning-from-Human-Feedback-RLHF
์ฌ๋์ ํผ๋๋ฐฑ์ ํตํ ๊ฐํํ์ต - Reinforcement Learning from Human Feedback $($RLHF$)$
Language Model$($LM$)$์ ์ง๋ ๋ช ๋ ๋์ ์ฌ๋์ ์ ๋ ฅ์ ํตํด ๋ค์ํ๊ณ ๊ทธ๋ด ๋ฏํ text๋ฅผ ์์ฑํด๋ด๋ฉด์ ๊ฐ๋ ฌํ ์ธ์์ ๋จ๊ฒผ๋ค. ํ์ง๋ง, ์ด๋ค ์ ์ด ์ด๋ ๊ฒ ์ข์ text๋ฅผ ์ถ๋ ฅํ ์ ์๊ฒ ํ๋์ง๋ ์์ธํ
cartinoe5930.tistory.com
The overview of this paper
LM์ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ์ ํตํด ์ง๋ ๋ช ๋ ๊ฐ ๋๋ผ์ด ์ฑ๋ฅ ์์น ํจ๊ณผ๋ฅผ ๋ณผ ์ ์์๋ค. ํ์ง๋ง, ๋ฌด์์ LM์ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํค๋๋ฐ ๋์์ด ๋ ์ ์์์ง ๋ชฐ๋ผ๋, ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ๋ฆฌํฐ๋ ๊ทธ๋ ์ง ์์ ์ ์๋ค. ์๋ํ๋ฉด, ์ง์ค์ฑ์ด ์๊ณ ์ ํดํ, ํ ๋ง๋๋ก ๋์์ด ๋์ง ์๋ ์ ๋ณด๋ฅผ ์์ฑํด๋ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด, ์ด LM์ ์ฌ์ฉ์๋ค์ ์๋ง๊ฒ ์กฐ์ ๋์ง ์์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ์ ์ ์ ์๋์ ์๋ง๊ฒ ์ฌ๋ฌ๊ฐ์ง ๋ถ์ผ์ task๋ฅผ ์ํํ ์ ์๋๋ก ์ฌ๋์ ํผ๋๋ฐฑ์ ๋ฐ๋ผ LM์ fine-tuningํจ์ผ๋ก์จ aligningํ LM์ ์ ์ํ์๋ค. ์ด๋ฅผ ์ํด, ์ฌ๋ ๋ผ๋ฒจ๋ฌ๊ฐ ์์ฑํ prompt์ OpenAI API์ prompt๋ฅผ ์ด์ฉํ์ฌ GPT-3๋ฅผ fine-tuning ํ์๋ค. ์ฌ๋ ๋ผ๋ฒจ๋ฌ๊ฐ ์์ฑํ prompt๋ ๋ชจ๋ธ์ ์๋์ ์๋ง๊ฒ ์ฌ๋์ด ์์ฑํ ์ค๋ช ์ ์๋ฏธํ๋ค. ๊ทธ ๋ค์์, ์ฌ๋๋ค์ ํผ๋๋ฐฑ์ ํตํด ๋ชจ๋ธ์ ์ถ๋ ฅ๋ค์ ๋ญํน ๋ฐ์ดํฐ๋ฅผ ์์งํด์ RL๋ก ๋ค์ fine-tuningํ๋ค. ์ด๋ฐ ๋ฐฉ์์ผ๋ก ๋ง๋ค์ด์ง ๋ชจ๋ธ์ด ๋ฐ๋ก InstructGPT์ด๋ค.
์ด 1.3B InstructGPT๋ 175B GPT-3๋ณด๋ค ์ฝ 100๋ฐฐ ๊ฐ๋ ๋ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ฒ๋ค๊ฐ, InstructGPT์ ์ง์ค์ฑ์ GPT-3๋ณด๋ค ์ฐ์ํ๊ณ , ์ ํดํ ์ถ๋ ฅ์ GPT-3๋ณด๋ค ์ ์๋ค. ์ด๋ ๊ฒ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์์๋ ๋ถ๊ตฌํ๊ณ , InstructGPT๋ ๊ณต์ธ๋ NLP dataset์์๋ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๋ณ๋ก ๋์ง ์์๋ค. ๊ทธ๋๋ ์์ง ์์ค์๋ฅผ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง, human feedback์ ํตํด fine-tuningํ๋ ๊ฒ์ model์ aligningํ๋ ์ ๋งํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ ์ ์๋ค.
Table of Contents
1. Instroduction
2. Related Work
3. Methods & Experimental details
3-1. High-level methodology
3-2. Dataset
3-3. Tasks
3-4. Models
3-5. Evaluation
4. Results
4-1. Results on the API distribution
4-2. Results on public NLP datasets
4-3. Qualitative results
5. Discussion
5-1. Implication for alignment research
5-2. Limitations
1. Introduction
LM์ task์ ๋ํ ๋ช ๊ฐ์ง ์์๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ๊ด๋ฒ์ํ ๋ถ์ผ์ NLP task๋ฅผ ์ํํ๋ค. ํ์ง๋ง, ์ด๋ฌํ LM์ ์ข ์ข ์๋๋์ง ์์ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๊ธฐ๋ ํ๋๋ฐ, ์๋ฅผ ๋ค์ด ์๋ ์ฌ์ค์ ๋ง๋ค๊ฑฐ๋, ํธํฅ์ ์ด๊ณ ์ ํดํ ํ ์คํธ๋ฅผ ๋ง๋ค๊ฑฐ๋, ์ฌ์ฉ์์ ์๋๋๋ก ์ฌ์ฉ๋์ง ์๋ ๋ฑ์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค. ์ด๋ ์๋ํ๋ฉด, ๋ณดํต์ LM์ ํ์ต์ํฌ ๋ ์์ฃผ ์ฌ์ฉ๋๋ NSP$($Next Sentence Prediction$)$์ misaligningํ ๋ชฉํ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ฌ๊ธฐ์ misaligning ํ๋ค๋ ํํ์ ์ฌ์ฉ์์ ์๋์ ์๋ง๊ฒ ์กฐ์ ๋์ง ์์๋ค๋ ์๋ฏธ์ด๋ค. ๋ค์ ๋ณธ๋ก ์ผ๋ก ๋ค์ด์์, ์ด๋ฌํ ํ์ต ๋ฐฉ๋ฒ์ '์ฌ์ฉ์์ ์๋์ ์๋ง๊ฒ ์ ์ตํ๊ณ ์์ ํ ๋ชจ๋ธ'์ด๋ผ๋ ์๋์ ์๋ง์ง ์๋ ํ์ต ๋ฐฉ๋ฒ์ด๋ค.
๊ทธ๋์ ์ฌ์ฉ์์ ์๋์ ์๋ง๊ฒ LM์ ํ์ต์ํค๋ ค ํ์๋ค. ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์๊ฒ explicit$($๋ถ๋ช ํ$)$ํ๊ฒ ํ์ต์ํจ ๊ฒ์ ์ฌ์ฉ์์ instruction์ ๋ฐ๋ฅด๊ฒ ํ๋ ๊ฒ์ด๊ณ , implicit$($์์์ $)$ํ๊ฒ ํ์ต์ํจ ๊ฒ์ ๋ชจ๋ธ์ด truthful, not biased & toxicํ text๋ฅผ ์์ฑํ๊ฒ ํ๋ ๊ฒ์ด์๋ค. ์์ฝํด์ ๋งํ๋ฉด, ์ ์ตํ๊ณ $($helpful$)$, ์์งํ๊ณ $($honest$)$, ๋ฌดํดํ$($harmless$)$ํ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ ํ์๋ค.
๋ ผ๋ฌธ์์๋ aligning LM์ ๋ง๋ค๊ธฐ ์ํด fine-tuning ๋ฐฉ์์ ๋ํด ์ง์คํ์๋ค. ์์ธํ๊ฒ ๋งํ๋ฉด, Reinforcement Learning from Human Feedback$($RLHF$)$๋ฅผ ์ฌ์ฉํ์ฌ GPT-3๋ฅผ ๊ด๋ฒ์ํ instruction์ ํด๋์ค๋ฅผ ๋ฐ๋ผ fine-tuningํ์๋ค. ์ด ๋ฐฉ์์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ์ฌ๋์ preference$($์ ํธ๋, ํผ๋๋ฐฑ ๊ฐ์ ๊ฐ๋ ์ผ๋ก ์๊ฐํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค$)$๋ฅผ reward signal๋ก ์ด์ฉํ์ฌ model์ fine-tuning ํด์ผ ํ๋ค. ์ด ๊ณผ์ ์ ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ์ด๋ฅผ ์ํด, 40๋ช ์ labeler๋ฅผ ํ ์คํธ๋ฅผ ํตํด ๋ฝ์. ๊ทธ ๋ค์์ผ๋ก OpenAI API์ human-written demonstration๊ณผ labeler-written prompt๋ฅผ ํ์ฉํ์ฌ supervised learning baseline์ ํ์ต์ํด.
- ์ด๋ ๊ฒ ํ์ต๋ ๋ชจ๋ธ์ด ์ถ๋ ฅํ ์ถ๋ ฅ๊ฐ๊ณผ, labeler๊ฐ ๋ผ๋ฒจ๋งํ ๋ผ๋ฒจ๊ณผ ๋น๊ตํ์ฌ API prompt๋ฅผ ๋ง๋ฆ. ๊ทธ๋ฐ ๋ค์ ์ด ๋ฐ์ดํฐ์ ์์ reward model$($RM$)$์ ํ๋ จํ์ฌ ๋ผ๋ฒจ๋ฌ๊ฐ ์ ํธํ๋ ๋ชจ๋ธ ์ถ๋ ฅ์ ์์ธก.
- ์ด RM์ reward function์ผ๋ก ํ์ฉํ์ฌ supervised learning baseline์ fine-tuningํด์ PPO ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด ์ด ๋ณด์์ ์ต๋ํํ ์ ์๊ฒ ๋ง๋ฆ.
์ด ๊ณผ์ ์ด ๊ทธ๋ฆผ 2์ ๋ํ๋ ์๋ค. ์ด๋ฌํ ๊ณผ์ ์ GPT-3๊ฐ ์ข ๋ aligning๋์ ์์์ ์ฌ๋๋ค์๊ฒ๋ง ์ ํธ ๋ฐ๋ ๋๋ต์ด ์๋, ์ข ๋ ๋ชจ๋๊ฐ ์ ํธํ๋ ๋๋ต์ ๋ด๋์ ์ ์๊ฒ ํด์ฃผ์๋ค. ์ด๋ฅผ ํตํด ๋์จ ๋ชจ๋ธ์ด ๋ฐ๋ก 'InstructGPT'์ธ ๊ฒ์ด๋ค!
๋ชจ๋ธ์ ์ ์ํ ํ, ์ฌ๋ฌ ๊ฐ์ง ํ๊ฐ๋ฅผ ์งํํ์๋๋ฐ, ๊ทธ๋ ๊ฒ ์ป๊ฒ๋ ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- InstructGPT์ ์ถ๋ ฅ์ด GPT-3์ ์ถ๋ ฅ๋ณด๋ค ์ ํธ๋ฐ์ โจ
- InstructGPT์ truthfulness๊ฐ GPT-3๋ณด๋ค ์กฐ๊ธ ๋ ์์นํ ๋ชจ์ต์ ๋ณด์ฌ์ค โจ
- InstructGPT๊ฐ GPT-3์ ๋นํด toxiciry์์ ๋ฏธ์ฝํ์ง๋ง ํฅ์๋ ๋ชจ์ต์ ๋ณด์ฌ์ค
- RLHF๋ฅผ ์ด์ฉํ์ฌ alignment tax ๋๋ฌธ์, public NLP dataset์ ๋ํด ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ชจ์ต์ด ์์์ง๋ง, fine-tuning procedure์ ์์ ํ์ฌ ์ต์ํํจ โจ
- ํ์ต์ ์ฌ์ฉ๋ instruction์ ๋ง๋ labeler์ ํํด์๋ง ์ ํธ๋๋ฅผ ๋ณด์ธ ๊ฒ์ด ์๋๋ผ, ํ์ต instruction ์ ์์ ๊ด์ฌ๋์ง ์์ labeler๋ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์ ํธ๋๋ฅผ ๋ณด์ -> ์ผ๋ฐํ๊ฐ ์ ๋์์ โจ
- InstructGPT๋ RLHF fine-tuning ๋ถํฌ ์ธ์ ๋ช ๋ น์ ๋ํด์๋ ์ผ๋ฐํ๊ฐ ์ ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค โจ
- InstructGPT๋ ๊ทธ๋ผ์๋ ์์ง ์์ค์๊ฐ ์์,, ๐
2. Related Work
InstructGPT ๋ ผ๋ฌธ๊ณผ ๊ด๋ จ๋ ์ฐ๊ตฌ ๋ด์ฉ๋ค์ ๋ค์๊ณผ ๊ฐ๋ค. ์๋๋ Related Work๋ฅผ ์ดํด๋ณด์ง ์์ง๋ง, InstructGPT ๋ ผ๋ฌธ์ Related Work๋ฅผ ๋ณด๋ฉด ๋ ผ๋ฌธ์ ์ ์ฒด์ ์ธ ํ๋ฆ์ ์ก์ ์ ์์ด์ ๊ฐ๋จํ๊ฒ ์ง๊ณ ๋์ด๊ฐ๋ณด๋๋ก ํ๊ฒ ๋ค.
- Human Feedback์ ์ด์ฉํ์ฌ alignment & learning ๐ซก: ์๋ก ์์ ๋ด์ ์ ์ ์๋ฏ์ด, InstructGPT๋ ์ฌ๋์ feedback์ ๋ฐ์์ ํ์ต ๋ฐ fine-tuning์ ํ๋ค.
- Instruction์ ๋ฐ๋ผ LM ํ์ต์ํค๊ธฐ ๐ซ: ์ฌ๋ labeler๊ฐ instruction์ ์ ์ํด์ ์ด instruction์ ์ด์ฉํ์ฌ LM์ ํ์ต์ํจ๋ค.
- LM์ ์ํ๋ ์ธก์ ๐: InstructGPT์ ๋ชฉํ๋ ์ฌ๋ํํ ๋์ฑ aligningํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด์๋ค. ๋ฐ๋ผ์ ์ฌ๋์๊ฒ ์๋ชป๋๊ฑฐ๋, ํธํฅ์ ์ธ ์ ๋ณด๋ฅผ ์ฃผ๋์ง ์ธก์ ํ ์ ์์ด์ผ ํ๋ค.
- LM์ behavior$($ํ๋, ํ๋$)$๋ฅผ ์กฐ์ ํ์ฌ ์ํ๋ ์ํ์ํค๊ธฐ โ ๏ธ๐ป: InstructGPT์ ๋ชฉํ์๋ harmlessํ LM์ ์ํด LM์ behavior์ ์กฐ์ ํ์ฌ ์ํ๋๋ฅผ ์ํ์์ผ์ผ ํ๋ค.
3. Methods & Experimental details
3-1. High-level methodology
๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๋ฐฉ๋ฒ์ ์ด์ ์ RLHF ๋ฐฉ์๋ค์ ๋ฐ๋ผ์ ์งํ๋์๋ค. ์ฐ์ pre-trained LM, ๋ชจ๋ธ์ด aligningํ ์ถ๋ ฅ์ ์์ฑํ๊ธฐ๋ฅผ ์ํ๋ prompt ๋ถํฌ, ๊ทธ๋ฆฌ๊ณ ํ๋ จ๋ human labeler ํ์ผ๋ก ์์ํ์๋ค. ๊ทธ ๋ค์์ ๊ทธ๋ฆผ 2์์ ์ค๋ช ํ ๊ฒ์ฒ๋ผ 3 ๋จ๊ณ๋ฅผ ์ ์ฉํ์๋ค.
- demonstration data ์์ง & supervised policy ํ์ต: labeler๋ input prompt์์ ์ํ๋ behavior์ demonstration์ ์ ๊ณตํ์๋ค. ๊ทธ ๋ค์์, ์ด๋ฅผ ์ด์ฉํด์ GPT-3๋ฅผ fine-tune.
- ๋น๊ต ๋ฐ์ดํฐ ์์ง & RM ํ์ต: ๋ชจ๋ธ ์ถ๋ ฅ๋ค ๊ฐ์ ๋น๊ต๋ฅผ ํ ๋ฐ์ดํฐ์ ์ ์์งํ๋ค. ์ด๋, labeler๋ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด ์ด๋ค ์ถ๋ ฅ๊ฐ์ด ๋์์ง ์ ํธ๋ฅผ ํจ์ผ๋ก์จ ๋น๊ต๋ฅผ ์งํํ๋ค. ๊ทธ ๋ค์์, RM์ human-preffered ์ถ๋ ฅ์ ์์ธกํ๋๋ก ํ์ต์ํจ๋ค.
- PPO๋ฅผ ์ฌ์ฉํ์ฌ RM์ ๋ํด policy๋ฅผ ์ต์ ํ: RM์ ์ถ๋ ฅ์ scalar reward๋ก ์ฌ์ฉํ๊ณ ์ด reward๋ฅผ PPO๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ ํ์ํจ๋ค.
2 ๋จ๊ณ์ 3 ๋จ๊ณ๋ ๊ณ์์ ์ผ๋ก ๋ฐ๋ณต๋๋ค. ํ์ฌ best policy์ ๋น๊ต ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ์์ง๋ ๋๊น์ง ๋ง์ด๋ค. ์ค์ ๋ก ๋๋ถ๋ถ์ ๋น๊ต ๋ฐ์ดํฐ๋ supervised policy์์ ๊ฐ์ ธ์ค๋ฉฐ ์ผ๋ถ๋ PPO ์ ์ฑ ์์ ๊ฐ์ ธ์จ๋ค.
3-2. Dataset
Dataset์ ์ค์ ๋ ผ๋ฌธ์์ ๋ณด๋ฉด, ๋ง ์ฌ๋๋ค์ ์ด๋ป๊ฒ ๋ฝ์๊ณ , ๋ญ ์ด๋ค ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ๋ฑ๊ณผ ๊ฐ์ด ๋งค์ฐ ๋ณต์กํ๊ณ ์ดํดํ๊ธฐ ์ด๋ ต๊ฒ ์ค๋ช ํด๋์ง๋ง, ์ค์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ fine-tuning์ ์ด๋ค ๋ฐ์ดํฐ์ ๋ค์ด ์ฌ์ฉ๋์๋๊ฐ ์ด๋ค. ๋ฐ๋ผ์ ๊ฐ์ฅ ์ค์ํ ์ด ๋ถ๋ถ์ ์ดํด๋ณด๋๋ก ํ์.
์ต์ด์ InstructGPT๋ฅผ ํ์ต์ํค๊ธฐ ์ํด, labelerํํ ์ค์ค๋ก prompt๋ฅผ ์์ฑ์ํค๊ฒ ํ์๋ค. ์๋ํ๋ฉด, ํ๋ก์ธ์ค๋ฅผ bootstrapํ๊ธฐ ์ํด instruction-like prompt์ ์ด๊ธฐ ์์ค๊ฐ ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ํ ๊ฒ์ ์ด๋ฌํ prompt๊ฐ GPT-3์๋ ๋ค์ด๊ฐ์ง ์์๋ค๋ ๊ฒ์ด๋ค. labeler๋ ๋ค์ 3๊ฐ์ง ํ์์ prompt๋ฅผ ์์ฑํ์๋ค.
- Plain: labeler์๊ฒ task์ ๋ค์์ฑ์ ์ถฉ๋ถํ ๋ณด์ฅํ๋ฉด์, ์์์ task๋ฅผ ์ ์ํ๋๋ก ์์ฒญ
- Few-shot: labeler์๊ฒ instruction๊ณผ ๊ทธ instruction์ ๋ํ ์ฌ๋ฌ query/response ์์ ์ ์ํ๋๋ก ์์ฒญ
- User-based: OpenAI API์ ๋ํ ๋๊ธฐ์ ๋ช ๋จ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ช ์๋ ์ฌ๋ฌ ์ฌ์ฉ ์ฌ๋ก๊ฐ ์๋ค. labeler์๊ฒ ์ด๋ฌํ ์ฌ์ฉ ์ฌ๋ก์ ํด๋นํ๋ prompt๋ฅผ ์ ์ํ๋๋ก ์์ฒญ.
์ด๋ฌํ prompt๋ก๋ถํฐ fine-tuning procedure์ ์ฌ์ฉ๋๋ ์ธ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์์ฑํ์๋ค.
- SFT dataset: labeler demonstration์ ์ฌ์ฉํด SFT model ํ์ต
- RM dataset: ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ํ ๋ญํน์ ์ฌ์ฉํ์ฌ RM ํ์ต
- PPO dataset: ์๋ฌด๋ฐ human label ์์ด, RLHF fine-tuning์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ
์ด๋ ๊ฒ ์์ฑ๋ dataset์ ๋ค์ํ ๋ถํฌ๋ฅผ ์ด๋ฃจ๋๋ฐ ์ด๋ ๋ค์์ ํ 1๊ณผ ๊ฐ๋ค.
3-3. Tasks
๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ํ์ต task๋ ๋ค์์ ๋ ๊ฐ์ง ์์ค๋ก๋ถํฐ ๋์๋ค. 1. labeler์ ์ํด ์์ฑ๋ prompt dataset 2. API์ ์ด๊ธฐ InstructGPT ๋ชจ๋ธ์ ์ ์ถ๋ prompt dataset. ์ด๋ฌํ prompt๋ ๋งค์ฐ ๋ค์ํ๋ฐ, ์์ฑ, QA, ๋ํ, ์์ฝ, ์ถ์ถ ์ธ์๋ ๋ง์ NLP task๋ฅผ ํฌํจํ๊ณ ์๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง dataset์ 96% ์ ๋๊ฐ ์์ด ๋ฐ์ดํฐ์ธ๋ฐ, ๋์ค์ ํ์ธํ ์ ์๊ฒ ์ง๋ง, ๋ค๋ฅธ ์ธ์ด์์๋ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค
3-4. Models
๋๋์ด ๋๋ง์ Model์ ๋ํด ์์๋ณผ ์ฐจ๋ก์ด๋ค. ํฌ์คํธ์ ์ฒ์์์๋ ๋งํ๋ฏ์ด ๋๋์ฒด ์ด๋ป๊ฒ ์๋ํ๋ ๊ฑด ์ง ๋๊ฒ ์๋ฌธ์ ํ๊ณ ์์๋๋ฐ, ์ด์ ์ด ๊ถ๊ธ์ฆ์ ํ์ด๋ณผ ๊ฒ์ด๋ค! ์ฐ์ InstructGPT๋ ์ฒ์์๋ GPT-3๋ก๋ถํฐ ์์ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด GPT-3์ ๋ค์์ ๊ฐ๊ธฐ ๋ค๋ฅธ 3๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ฉํ์ฌ ํ์ต์์ผฐ๋ค.
Supervised fine-tuning $($SFT$)$
์ง๋ ํ์ต์ ์ด์ฉํ์ฌ GPT-3๋ฅผ labeler demonstration์ ๋ํด fine-tune ํ์๋ค. cosine learning rate ๊ฐ์์ residual dropout 0.2๋ฅผ ์ฌ์ฉํ์ฌ 16 epoch ๋์ ํ์ต๋์๋ค. ๊ทธ๋ฌ๊ณ ์ต์ข SFT model์ validation set์ ๋ํด RM score๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ก ์ ์ ๋์๋ค. SFT model์ 1 epoch์ ์งํํ ๋ค์ ๊ณผ์ ํฉ์ด ์์์์๋ ๋ถ๊ตฌํ๊ณ , epoch์ ๋ง์ด ์งํํ ์๋ก RM score์ human reference rating์ ๋์์ด ๋๋ค๋ ๊ฒ์ ์์๋ค.
Reward Modeling $($RM$)$
์ต์ข unembedding layer๊ฐ ์ ๊ฑฐ๋ SFT model์์ ์์ํ์ฌ prompt์ response์ ๋ฐ์๋ค์ด๊ณ ์ถ๋ ฅ์ผ๋ก scalar reward๋ฅผ ๋ด๋๋๋ก ๋ชจ๋ธ์ ํ๋ จ์์ผฐ๋ค. ๋ ผ๋ฌธ์์๋ 6B RM๋ง ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๊ณ์ฐ๋์ ์ค์ด๊ธฐ ์ํ ๊ฒ๋ ์๊ณ , 175B RM ํ์ต์ ๋ถ์์ ํ ๋ชจ์ต๊ณผ ์คํ๋ ค ๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ธฐ ๋๋ฌธ์ด๋ค.
๊ธฐ์กด์ RM๊ณผ ๋ค๋ฅธ ์ ์ human labeler๊ฐ ๋ ์ ํธํ๋ ์๋ต์ log odd๋ฅผ ์ถ๊ฐํด์ ์ฐจ์ด์ ์ ๋๋ค.
๋น๊ต ์์ง ์๋๋ฅผ ๋์ด๊ธฐ ์ํด, ์์์ ๋ํ ์๋ต์ด $K = 4$์์ $K = 9$ ์ฌ์ด์ธ labeler๋ง ์ ์ํ ์ ์๋๋ก ํ์๋ค. ์ด๋ ๊ฒ ํ๋ฉด labeler์๊ฒ ํ์๋๋ ๊ฐ prompt์ ๋ํด $\begin{pmatrix}
K \\ 2
\end{pmatrix}$ ๋น๊ต๊ฐ ์์ฑ๋๋ค. ๋น๊ต๋ ๊ฐ labeling task ๋ด์์ ๋งค์ฐ ์๊ด ๊ด๊ณ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋น๊ต๋ฅผ ํ๋์ dataset์ผ๋ก ๋จ์ํ ์์ผ๋ฉด dataset์ ๋ํ single pass๋ก ์ธํด RM์ด ๊ณผ์ ํฉ๋จ์ ๋ฐ๊ฒฌํ์๋ค. ๋์ ๊ฐ prompt์ ๋ชจ๋ $\begin{pmatrix}
K \\ 2
\end{pmatrix}$ ๋น๊ต๋ฅผ ๋จ์ผ ๋ฐฐ์น ์์๋ก ํ์ตํ์๋ค. ์ด๋ ๊ฐ completion์ ๋ํด RM์ single forward pass๋ง ํ์ํ๊ณ ๋ ์ด์ ๊ณผ๋์ ํฉ๋์ง ์๊ธฐ ๋๋ฌธ์ ํจ์ฌ ํฅ์๋ validation accuracy ๋ฐ log loss๋ฅผ ๋ฌ์ฑํ๊ธฐ ๋๋ฌธ์ ํจ์ฌ ๋ ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์ ์ด๋ค.
RM์ loss function์ ๋ค์๊ณผ ๊ฐ๋ค.
๋ง์ง๋ง์ผ๋ก, RM ์์ค์ reward์ ๋ณํ์ ๋ถ๋ณํ๊ธฐ ๋๋ฌธ์ labeler demonstration์ด RL์ ์ํํ๊ธฐ ์ ์ ํ๊ท ์ ์๊ฐ 0์ด ๋๋๋ก ํธํฅ์ ์ฌ์ฉํ์ฌ ๋ณด์ ๋ชจ๋ธ์ ์ ๊ทํํ๋ค.
Reinforcement learning $($RL$)$
๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ํ๊ฒฝ์์ PPO๋ฅผ ์ฌ์ฉํ์ฌ SFT model์ fine-tune ํ์๋ค. ํ๊ฒฝ์ ์์์ customer prompt๋ฅผ ์ ์ํ๊ณ prompt์ ๋ํ ์๋ต์ ๊ธฐ๋ํ๋ bandit ํ๊ฒฝ์ด๋ค. prompt์ response๊ฐ ์ฃผ์ด์ง๋ฉด, RM์ ์ํด ๊ฒฐ์ ๋๋ reward๋ฅผ ์ถ๋ ฅํ๊ณ ์ํผ์๋๋ฅผ ๋๋ธ๋ค. ๊ฒ๋ค๊ฐ, ํ ํฐ๋น KL ํ๋ํฐ๋ฅผ ์ถ๊ฐํด RM์ ๊ณผ๋ํ ์ต์ ํ๋ฅผ ๋ฐฉ์งํ์๋ค. value function์ RM์ผ๋ก๋ถํฐ ์์๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ 'PPO'๋ผ๊ณ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ public NLP dataset์ ๋ํ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, PPO ๊ธฐ์ธ๊ธฐ์ pre-training ๊ธฐ์ธ๊ธฐ๋ฅผ ์๋ ์คํ์ ์งํํ์๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ 'PPO-ptx'๋ผ๊ณ ๋ถ๋ฅธ๋ค. RL ํ์ต์์ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐํฉ๋ objective function์ ์ต๋ํํ๋ค.
Baselines
์ด๋ ๊ฒ ๋ง๋ค์ด์ง PPO model์ SFT model๊ณผ GPT-3์ ๋ํด์๋ ์ฑ๋ฅ์ ๋น๊ตํด๋ณด์๋ค.
3-5. Evaluation
๋ชจ๋ธ์ด ์ผ๋ง๋ align ๋์๋์ง ์ธก์ ํ๊ธฐ ์ํด, context์์ alignment์ ์๋ฏธ๋ฅผ ๋ช ํํ ํด์ผํ ํ์๊ฐ ์๋ค. alignํ๋ค๋ ์๋ฏธ๋ ๋ชจ๋ธ์ด ์ฌ์ฉ์์ ์๋๋๋ก ํ๋ํ๋๊ฐ๋ฅผ ์๋ฏธํ๊ณ , ์ด๋ ๋ค์ ๋งํ๋ฉด ์ผ๋ง๋ ๋์์ด ๋๊ณ $($helpful$)$, ์ ์งํ๊ณ $($honest$)$, ๋ ์ ํดํ์ง$($harmless$)$ํ ์ง๋ฅผ ์ธก์ ํด์ผ ํ๋ค.
๋ชจ๋ธ์ ์ ์งํจ$($honest$)$๋ฅผ ์ธก์ ํ๋ ๊ฑด ๋งค์ฐ ์ด๋ ต๋ค. ๋ฐ๋ผ์ ์ด์ ๋ํ ๋์์ผ๋ก ๋ชจ๋ธ์ truthfulness๋ฅผ ์ธก์ ํ๊ธฐ๋ก ํ๋ค. ๋ชจ๋ธ์ truthfulness๋ฅผ ์ธก์ ํ๋ ๋ฐ์๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์ฌ์ฉ๋์๋ค.
- closed domain task์์ ์ด๋ป๊ฒ ์ ๋ณด๋ฅผ ํ์ฑํ๋์ง ๊ฒฝํฅ ํ๊ฐ
- truthfulQA dataset ์ฌ์ฉ
์ ์งํจ๊ณผ ๋น์ทํ๊ฒ ๋ชจ๋ธ์ ํด๋ก์$($harm$)$์ ์ธก์ ํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ด ์ผ์ด๋ค. ๊ทธ๋์ labeler๊ฐ text๊ฐ ๋งฅ๋ฝ์ ๋ง๋ ๋ง์ธ์ง ํ๊ฐํ๋ ๊ณผ์ ์ ํตํด ์ธก์ ํ๊ฑฐ๋, RealToxicityPrompts ๋ฒค์น๋งํฌ๋ฅผ ์ด์ฉํ์๋ค.
์์ฝํ์๋ฉด, ์ ๋์ ํ๊ฐ๋ฅผ ๋ ๊ฐ์ ํํธ๋ก ๋๋ ์ ์๋ค.
- API ๋ถํฌ ํ๊ฐ
- public NLP dataset ํ๊ฐ
4. Results
4-1. Results on API distribution
์์ Evaluation์์ ์ค๋ช ํ๋ ๊ฒ์ฒ๋ผ ํ๊ฐ๋ API ๋ถํฌ์ public NLP dataset์ผ๋ก ๋ ๊ฐ์ง ํํธ๋ก ๋๋๋ค๊ณ ํ๋ค. ๊ทธ ์ค์ ์ฒซ ๋ฒ์งธ ํ๊ฐ ์์ญ์ธ API ๋ถํฌ์ ๋ํด์ ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์๋์ง ์์๋ณด์.
- labeler๋ค์ GPT-3๋ณด๋ค InstructGPT๋ฅผ ๋์ฑ ์ ํธํจ ๐ฅ
- training labeler๊ฐ ์๋ labeler๋ InstructGPT๋ฅผ ๋์ฑ ์ ํธํจ. ๊ฒ๋ค๊ฐ ๊ณผ์ ํฉ ๋์ง๋ ์์. โจ
- Public NLP dataset์ LM์ด ์ฌ์ฉ๋๋ ๋ฐฉ์์ ๋ฐ์ํ์ง ๋ชปํจ ๐ญ
๋์ฑ ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
4-2. Results on public NLP dataset
๋ ๋ฒ์งธ ํ๊ฐ ์์ญ์ธ public NLP dataset์ ๋ํด์ ์์๋ณด์.
- InstructGPT๋ GPT-3์ ๋นํด truthfulness๊ฐ ํฅ์๋ ๋ชจ์ต์ ๋ณด์ฌ์ค ๐
- toxicity๋ ๋ฏธ๋ฏธํ์ง๋ง ํฅ์๋์์. ๊ทธ๋ฆฌ๊ณ ๋ ํธํฅ์ ์ธ ๋ชจ์ต์ ๋ณด์ฌ์ค ๐
- RLHF ํ๋ก์์ ๋ฅผ ์์ ํด์ public NLP dataset์ ๋ํด ์ฑ๋ฅ ๊ฐ์๋ฅผ ์ต์ํ์ํฌ ์ ์์์ ๐ซฃ
- PPO fine-tuning์ pre-traininig update๋ฅผ ์ถ๊ฐ
๋์ฑ ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
4-3. Qualitative results
- ๋น์์ด ์ธ์ด & code data๊ฐ ๋ถ์กฑํ์์๋ ๋ถ๊ตฌ, task๋ฅผ ์ํํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค ๐ซข
- alignment method๊ฐ ์ฌ๋์ด ์ง๋ํ์ง ์๋ ๋ฐ์ดํฐ์๋ ์ํํ ์ ์๊ฒ ํด์ค
- ๊ทธ์น๋ง ๋๋ต์ ๊ทธ ์ธ์ด๊ฐ ์๋ ๋ณดํต์ ์์ด๋ก ํด์ค ๐ซ
- ์์ง ์์ค์๋ ์์ ๐
- ์๋ชป๋ ๊ฐ์ ๋ ์ง์ง๋ผ๊ณ ํ๋จ ๐
- ์ฌ์ด ๋ฌธ์ ์์๋ ๋ถ๊ตฌ, ๋๋ฌด ๋ฌธ์ ๋ฅผ ๊ผฌ์์ ์๊ฐํ ๋๊ฐ ์์ ๐คจ
- ์ด๋ ต๊ฑฐ๋ ์ฌ๋ฌ๊ฐ์ง์ ์กฐ๊ฑด์ ๋ฌ๊ฒ ๋๋ฉด ์ฑ๋ฅ ๐ป
๋์ฑ ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
5. Discussion
5-1. Implications for alignment research
์ฐ๊ตฌ๋ฅผ ํตํด alignment ์ฐ๊ตฌ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ ๊ตํ๋ค์ ์ป์ ์ ์์๋ค.
- ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ๋ณด๋ค alignment์ ํฌ์ํ๋ ๊ฒ์ด ๋์ฑ ํจ์จ์ ๐
- InstructGPT๋ ๊ฐ๋ฅด์ณ์ฃผ์ง ์์ ๊ฒ์๋ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅ ๐ซก
- ๋ ผ๋ฌธ์์ ์ ์๋ ๋ฐฉ๋ฒ์ fine-tuning์ผ๋ก ์ฑ๋ฅ ์ ํ๋ฅผ ์ํํ ์ ์์์ โจ
- ์ด ๋ ผ๋ฌธ์ด ์์ผ๋ก์ alignment ์ฐ๊ตฌ์ ๋ฐํ์ด ๋๊ธธ ๋ฐ๋ ๐ค
5-2. Limitations
์๋ฒฝํด ๋ณด์ด๋ InstructGPT์๋ ๋ช ๊ฐ์ง ํ๊ณ๊ฐ ์์๋๋ฐ ๊ทธ ํ๊ณ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- 40๋ช ์ labeler๋ก ๋ชจ๋ ์ฌ๋๋ค์ ํํ๊ณผ ๊ฐ์ , ๊ธฐ์ค์ ๋๋ณํ๊ธฐ์๋ ๋ถ์กฑ ๐
- InstructGPT๋ ์๋ฒฝํ๊ฒ align๋์ง๋, ์์ ํ์ง๋ ์์ โ ๏ธ
- ๊ฐ์ฅ ํฐ ํ๊ณ๋, ์ฌ์ฉ์์ ์๋๊ฐ ์ ํดํ ๋๋ต์ ๋ด๋์ ๊ฒ์์ ์์๋ ๋ถ๊ตฌํ๊ณ ๋ฐ๋ฅธ๋ค๋ ๊ฒ์ ๐
์ด๋ ๊ฒ ํด์ InstructGPT์ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๊ณ ๋๋ฆ๋๋ก ๋ฆฌ๋ทฐ๋ฅผ ์งํํด ๋ณด์๋๋ฐ, ์ง๊ธ๊น์ง์๋ ์์ ํ ๋ค๋ฅธ ์๋ก์ด ๋ฐฉ๋ฒ์ผ๋ก ๋ํํ ๋ค๊ฐ์๊ธฐ์ ์์ง๋ ์ ๋๋ก ์ดํดํ์ง ๋ชปํ ๋ถ๋ถ๋ค๋ ๋ง์๋ ๊ฒ ๊ฐ๋ค. ํฌ์คํธ๋ฅผ ์ฝ์ผ๋ฉด์ ์ด์ํ๊ฑฐ๋, ๋ถ์กฑํ ๋ถ๋ถ์ด ์๋ค๋ฉด ์ธ์ ๋ ์ฝ๋ฉํธ ํด์ฃผ์๋ฉด ๋ฐ๋ก๋ฐ๋ก ์์ ํ๋๋ก ํ๊ฒ ์ต๋๋ค!! ์ค๋๋ ๊ธ ์ฝ์ด์ฃผ์๋๋ผ ์๊ณ ๋ง์ผ์ จ์ต๋๋ค!! ๋ค์ ํฌ์คํธ์์ ๋ ๋ต๊ฒ ์ต๋๋ค!! ๊ฐ์ฌํฉ๋๋ค!! ๐
์ถ์ฒ
https://arxiv.org/abs/2203.02155
Training language models to follow instructions with human feedback
Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not ali
arxiv.org