The overview of this paper
์ต๊ทผ ๋ช ๋ ๋์ LLM์ ๋ณต์กํ multi-step ์ถ๋ก ์ ์ํํ๊ธฐ ์ํ ๋ฅ๋ ฅ์ด ์๋นํ ๊ฐ์ ๋์๋ค. ํ์ง๋ง, SoTA ๋ชจ๋ธ์ ์์ง ๋ ผ๋ฆฌ์ ์ค๋ฅ๋ฅผ ๋ง๋ค์ด ๋ด๊ธฐ๋ ํ๋ค. ๋์ฑ ์ ๋ขฐ๋ ์๋ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ์ต์ข ๊ฒฐ๊ณผ์ ๋ํด ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ outcome supervision์ผ๋ก ์ ํ๋ ์ ์๋ค.
๋ ผ๋ฌธ์ ์คํ์ ํตํด ์ด๋ ค์ด MATH ๋ฐ์ดํฐ์ ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด process supervision์ด outcome supervision์ ์๋นํ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ํ active learning์ด process supervision์ ํจํ์ ์๋นํ ๊ฐ์ ์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ 80๋ง ๊ฐ์ step-level human feedback ๋ผ๋ฒจ์ ํฌํจํ๋ ์์ฑ ๋ฐ์ดํฐ์ ์ธ PRM800K๋ฅผ ๊ณต๊ฐํ์๋ค.
Table of Contents
1. Introduction
2. Methods
3. Large-Scale Supervision
4. Small-scale Synthetic Supervision
5. OOD Generalization
6. Discussion
1. Introduction
LLM์ step-by-step CoT ํฌ๋งท์์ ์๋ฃจ์ ์ ์์ฑํจ์ผ๋ก์จ ๋ณต์กํ multi-step ์ถ๋ก ์ ํ์๋ก ํ๋ task๋ฅผ ์ํํ ์ ์๋ค. ํ์ง๋ง ์๋ชป๋ ์ ๋ณด๋ฅผ ์ฃผ๊ฑฐ๋ hallucination์ ์ผ์ผํค๊ธฐ๋ ํ๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ hallucination์ ํ์งํ๊ณ ์ํํ๋ ๊ฒ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ ์ํค๋๋ฐ ํ์์ ์ด๋ค.
ํจ๊ณผ์ ์ธ method ์ค ํ๋๋ ๋ฐ๋์งํ output ๊ฐ์ ๊ตฌ๋ณ์ ํ๊ธฐ ์ํ RM ํ์ต์ ํฌํจํ๋ค. ์ด ๊ธฐ์ ์ ์ ์ฉํ์ง๋ง ๊ฒฐ๊ณผ๋ก ๋์จ ์์คํ ์ RM ์์ ์๊ฒ๋ง ์ ๋ขฐ๋๊ฐ ์๋ค. ๊ทธ๋์ ์ด๋ป๊ฒ ๊ฐ์ฅ ํจ๊ณผ์ ์ผ๋ก ์ ๋ขฐ๋ ์๋ RM์ ํ์ต์ํค๋์ง์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ค์ํ๋ค.
์ด์ ์ฐ๊ตฌ์์ RM์ ํ์ต์ํค๊ธฐ ์ํ 2๊ฐ์ method๋ฅผ ์ค๋ช ํ๋ค: outcome supervision & process supervision.
- Outcome-supervised reward models(ORM): ๋ชจ๋ธ์ CoT์ ์ต์ข ๊ฒฐ๊ณผ๋ง์ ์ฌ์ฉํด์ ํ์ตํจ
- Process-supervised reward models(PRM): CoT์์ ๊ฐ ์คํ ์ ๋ํ ํผ๋๋ฐฑ์ ๋ฐ์
process supervision์ ๋ ์ ํธํ๋ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค. ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ ์ ํํ ์์น๋ฅผ ๋ช ์ํด์ ๋์ฑ ์ ํํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๊ณ , process supervision์ ์ด๋ฌํ misaligned ํน์ฑ์ ์ํํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค.
ํ์ง๋ง ์ด๋ฌํ ์ฅ์ ์๋ ๋ถ๊ตฌํ๊ณ outcome supervision๊ณผ process supervision์ ๋น์ทํ ์ต์ข ์ฑ๋ฅ์ ์ด๋์ด๋ธ๋ค. ๋ ผ๋ฌธ์์๋ 3๊ฐ์ ์ฃผ๋ ์ฐจ์ด์ ์ ๊ฐ์ง๊ณ ๋ํ ์ผํ ๋น๊ต๋ฅผ ์งํํ์๋ค.
- ๋ ์ ๋ฅํ base model
- ์๋นํ ๋ ๋์ human feedback
- ๋์ฑ ์ด๋ ค์ด MATH ๋ฐ์ดํฐ์ ์์์ ํ์ต๊ณผ ํ ์คํธ
๋ ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- process supervision์ outcome supervision๋ณด๋ค ๋ ์ ๋ขฐ๋ ์๋ RM์ ํ์ต์์ผฐ์
- ๊ฑฐ๋ RM์ smaller RM์ ๋ํด human supervision์ ๊ทผ์ ํ ์ ์์
- active learning์ process supervision ๋ฐ์ดํฐ ํจ์จ์ฑ์์ 2.6๋ฐฐ์ ๊ฐ์ ์ ์ด๋์์
- PRM800K supervision ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํจ
2. Methods
outcome & process supervision์ ๋น๊ต๋ฅผ ์ํํ์๋ค. outcome supervision์ ์ฌ๋ ์์ด๋ ๊ฐ๋จํ๊ฒ ์ ๋ต์ ํ์ธํด์ ํ ์ ์์ง๋ง, process supervision์ ๋ฐ๋ก ์๋ํ๋ method๊ฐ ์๊ธฐ ๋๋ฌธ์ human data-labeler์ ์์กดํด์ ์งํํ์๋ค.
๋ ผ๋ฌธ์์๋ 2๊ฐ์ ๋ณ๊ฐ์ ์์ญ์์ ์คํ์ ์งํํ์๋ค: large-scale & small-scale. ๊ฐ๊ฐ์ ๊ฐ๊ฐ์ ์ฅ์ ์ ๊ฐ์ง๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ์ฅ ์ ๋ขฐ๋ ์๋ ORM๊ณผ PRM์ ํ์ต์ํด์ผ๋ก์จ SoTA๋ฅผ ๋ฐ์ ์ํค๋๋ฐ ์ด์ ์ ๋ง์ท๋ค. ๋ถํํ๊ฒ๋ ์ด RM์ ๋ํ training set๋ ์ง์ ์ ์ผ๋ก ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅํ๋ฐ, ์ด ๊ฒฐ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋์ฑ ์ง์ ์ ์ธ ๋น๊ต๋ฅผ ์ํํ ์ ์๋ ์๊ท๋ชจ์ ๋ชจ๋ธ ๋ํ ํ์ต์์ผฐ๋ค. ๋ํ ๊ฐ๋น์ผ human feedback์ ๋ํ ์์กด๋๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํด ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์๊ท๋ชจ training์ ์งํํ์๋ค.
2-1. Scope
๊ฐ ๋ชจ๋ธ ๊ท๋ชจ์์, ๋ชจ๋ ์๋ฃจ์ ์ ์์ฑํ๊ธฐ ์ํด ํ๋์ ๊ณ ์ ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค. ์ด ๋ชจ๋ธ์ generator๋ผ๊ณ ๋ถ๋ฅธ๋ค. generator๋ฅผ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋ฐ๋ก RL์ ์ฌ์ฉํ์ง ์์๋๋ฐ, ์ด๋ RL์ ์ฌ์ฉํด์ ํ์ต์ํค๋ฉด generator๊ฐ RM์ผ๋ก๋ถํฐ ์ด๋ ํ supervision๋ ๋ฐ์ง ์๊ธฐ ๋๋ฌธ์, ์ด๋ ๋ ผ๋ฌธ์ ์ทจ์ง์ ๋ง์ง ์์์ ๋ฐฐ์ ํ์๋ค. ๊ทธ ๋์ ์ ์ด๋ป๊ฒ ๊ฐ์ฅ ์ ๋ขฐ๋ ์๋ RM์ ํ์ต์ํฌ ์ ์๋์ง์ ๋ํด ์ด์ ์ ๋์๋ค.
2-2. Base Models
๋ชจ๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ base GPT-4 ๋ชจ๋ธ๋ก๋ถํฐ fine-tuned ๋์๋ค. ์ด ๋ชจ๋ธ์ next token prediction์ผ๋ก๋ง pre-train ๋๊ณ RLHF๋ก๋ ํ์ต๋์ง ์์๋ค. ์๊ท๋ชจ ๋ชจ๋ธ๋ GPT-4์ ๋์์ธ์ ๋น์ทํ์ง๋ง 200๋ฐฐ ๋ ์ ์ ๊ณ์ฐ๋์์ pre-train ๋์๋ค. ์ถ๊ฐ์ ์ธ pre-training step์ผ๋ก ๋ชจ๋ ๋ชจ๋ธ์ MathMix ๋ฐ์ดํฐ์ ์์ ์ถ๊ฐ์ ์ผ๋ก fine-tune ํ์๋ค. ์ด๊ฒ์ด ๋ชจ๋ธ์ ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ ์์ผฐ๋ค.
2-3. Generator
๊ฐ๋ณ step์ ๋ถ์์ ์ฝ๊ฒ ํ๊ธฐ ์ํด step-by-step ํ์์ผ๋ก ์๋ฃจ์ ์ ์์ฑํ๋๋ก generator๋ฅผ ํ์ต์์ผฐ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก MATH training ๋ฌธ์ ์ ๋ํ ์๋ฃจ์ ์ few-shot์ผ๋ก ์์ฑํ๊ณ , ์๋ง์ ์ต์ข ์๋ต์ ๋๋ฌํ๋์ง ํํฐ๋งํ๊ณ , ์ด ๋ฐ์ดํฐ์ ์์ base model์ 1 epoch์์ fine-tune ํ์๋ค. ์ด ์คํ ์ generator๊ฐ ๋ชฉํ๋ก ํ๋ ํ์์ผ๋ก ์๋ฃจ์ ์ ์์ฑํ๋๋ก ๊ฐ๋ฅด์น๋ค.
2-4. Data Collection
process supervision ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํด human data-labeler์ ๋๊ท๋ชจ generator์ ์ํด ์ํ๋ง๋ MATH problem์ ๋ํ ์ด๋ค์ task๋ ์๋ฃจ์ ๊ณผ ํจ๊ป ๋ํ๋ฌ๋ค. ์ด๋ค์ task๋ ๊ทธ๋ฆผ 1์ฒ๋ผ ์๋ฃจ์ ์์ ๊ฐ ์คํ ์ ๋ผ๋ฒจ(positive, neutral, negative)์ ์ง์ ํ๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์ neutral ๋ผ๋ฒจ์ ํ๋ฝํ๋ ์ด์ ๋ ์ด๋ป๊ฒ ๋ชจํธ์ฑ์ ๋ค๋ฃฐ ์ ์๋์ง์ ๋ํ ๊ฒฐ์ ์ ๋ฌ๋ฆฌํ๋ ๊ฒ์ ํ๋ฝํด ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ ผ๋ฌธ์์๋ ์๋ฃจ์ ์ ์ ํ๋ human-data ๋ฆฌ์์ค์ ๊ฐ์ ์ต๋ํํ๊ธฐ ์ํด ๋๊ท๋ชจ generator๋ก๋ถํฐ ๋ผ๋ฒจ๋ง ํ์๋ค. ๋ ผ๋ฌธ์์๋ ์์ง๋ step-level ๋ผ๋ฒจ์ ์ ์ฒด ๋ฐ์ดํฐ์ ์ PRM800K ๋ผ๊ณ ์ง์นญํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ 12K ๊ฐ์ ๋ฌธ์ ์ ๋ํ 75K ๊ฐ์ ์๋ฃจ์ ์ ๋ํ 800K ๊ฐ์ step-level ๋ผ๋ฒจ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ค๋ฒํผํ ์ ์ต์ํํ๊ธฐ ์ํด 4.5K ๊ฐ์ MATH test ๋ฌธ์ ๋ฅผ PRM800K training set์ ํฌํจ์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ ๋จ์ 500๊ฐ์ MATH test ๋ฌธ์ ์ ๋ํด ๋ชจ๋ธ์ ํ๊ฐํ์๋ค.
๋ฐ์ดํฐ ์์ง ์ค์ ์ด๋ค ์๋ฃจ์ ์ด ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ฌ์๊ฒ ๋ณด์ฌ์ ธ์ผ ํ ์ง ๊ฒฐ์ ๋์ด์ผ๋ง ํ๋๋ฐ, ์ด๊ฒ์ best RM์ ์ต๋ํ ์ ์์ด๋ ์๋ฃจ์ ์ ์ ํธํ๋ค. ๊ทธ๋์ convincing wrong-answer๋ฅผ ์ ํํ์๋ค. ์ฌ๊ธฐ์ convincing์ PRM์ผ๋ก๋ถํฐ ๋๊ฒ ํ๊ฐ๋ ์๋ฃจ์ ์ด๊ณ , wrong-answer๋ incorrect final answer์ ๋๋ฌํ๋ ์๋ฃจ์ ์ ๋งํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด ์ฝ๊ฐ ์ฅํฉํ ํํ์ ์ฌ์ฉํ์ฌ ์ ํ์ฑ์ด ์ ์ ์ผ๋ก final answer๋ฅผ ํ์ธํจ์ผ๋ก์จ ๊ฒฐ์ ๋๋ค๋ ์ฌ์ค์ ๊ฐ์กฐํ์๋ค. ์ด ๊ณผ์ ์ ๋๋๋ก ์๋ชป๋ ๋ต์ผ๋ก ์ด์ด์ง๊ธฐ๋ ํ๋ค. convincing wrong answer ์๋ฃจ์ ์ ๋ผ๋ฒจ๋ง ํ๋ ๊ฒ์ผ๋ก๋ถํฐ ๋ง์ ์ ๋ณด๋ฅผ ์ป์ ๊ฒ์ด๋ผ ์์ํ์๋๋ฐ, ์๋ํ๋ฉด PRM์ ์ด๋ฌํ ๊ฐ ์๋ฃจ์ ์์ ์ต์ ํ ์คํ ์ ๋ํด ์ค์ํ๋ค๋ ๊ฒ์ ์๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ฒ๋ค๊ฐ ์ด๋ฌํ ์ ํ ์ ๋ต์ ์ฌ์ฉํด์ ๋ฐ์ดํฐ ์์ง ํ๋ก์ธ์ค์ ์ฌ๋ฌ ํฌ์ธํธ์์ ์ต๊ทผ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ PRM์ ๋ฐ๋ณต์ ์ผ๋ก ์ฌํ์ต์์ผฐ๋ค.
2-5. Outcome-supervised Reward Models(ORM)
๋ ผ๋ฌธ์์๋ generator๋ก๋ถํฐ ๋ฌธ์ ๋น ๊ณ ์ ๋ ์์ ์๋ฃจ์ ์ ๊ท ์ผํ๊ฒ ์ํ๋งํ๊ณ , ๊ฐ ์๋ฃจ์ ์ด ๋ง๋์ง ๋๋ ์ ๋ง๋์ง ์์ธกํ๋๋ก ORM์ ํ์ต์์ผฐ๋ค. test time์ ORM์ ์์ธก์ ์๋ฃจ์ ์ ๋ํ ์ ๋ฐ์ ์ธ score์ ์ต์ข ํ ํฐ์ผ๋ก ์ฌ์ฉํ์๋ค. ๋ํ ORM ํ๊น์ด ์๋ฒฝํ ์ ๋ขฐ๋๋์ง, ๊ทธ๋ ์ง ์์์ง๋ฅผ ์๋ํ๋ grading์ ์ฌ์ฉํ์ฌ ๊ฒฐ์ ํ์๋ค: incorrect ์ถ๋ก ์ผ๋ก correct answer์ ๋๋ฌํ๋ false positive ์๋ฃจ์ ์ ์๋ชป grading ๋ ๊ฒ.
2-6. Process-supervised Reward Models(PRM)
๋ ผ๋ฌธ์์๋ ๊ฐ ์คํ ์์ ์ต์ข ํ ํฐ ์ดํ์ ๊ฐ ์คํ ์ ์ ํ๋๋ฅผ ์์ธกํ๊ธฐ ์ํด PRM์ ํ์ต์์ผฐ๋ค. ์ด ์์ธก์ single token์ ํํ๋ฅผ ๊ฐ์ง๊ณ , training ์ค์ ํ๊น ํ ํฐ์ log-likelihood๋ฅผ ์ต๋ํ์ํจ๋ค. ํ ์คํธ ์์ step-level ์์ธก์ ๊ฒฐ์ ํ๊ธฐ ์ํด PRM์ด suffix ๋ผ์ ์ ์ฒด ์๋ฃจ์ ์ ๋ํด ํ๋์ PRM forward pass๋ฅผ ์ํํ๋ค. ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฆผ 2์ 2๊ฐ์ ์๋ก ๋ค๋ฅธ ์๋ฃจ์ ์ ๋ํ ๋๊ท๋ชจ PRM score๋ฅผ ์๊ฐํํ์๋ค. ๋ค์ํ ์๋ฃจ์ ์ ๋น๊ตํ๊ธฐ ์ํด ๊ฐ ์๋ฃจ์ ์ ๋ํ single score ๊ณ์ฐ์ ํ์์ ์ด๋ค.
process supervision์ ์ ๊ณตํ ๋ ์๋์ ์ผ๋ก ์ฒซ ๋ฒ์งธ ์๋ชป๋ ๋จ๊ณ๊น์ง๋ง supervise ํ๋๋ก ์ ํํ์๋ค. ์ด๊ฒ์ outcome supervision๊ณผ process supervision ๊ฐ์ ๋น๊ต๋ฅผ ๋์ฑ ์ง๊ด์ ์ผ๋ก ๋ง๋ค์ด์คฌ๋ค. ์๋ง์ ์๋ฃจ์ ์ ๋ํด ๋ method๋ ๋ชจ๋ ์คํ ์ด ์๋ง๋ค๋ ๋๊ฐ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ค. ์๋ง์ง ์์ ์๋ฃจ์ ์ ๋ํด 2๊ฐ์ method๋ ์ต์ ํ๋์ ์ค์์ ์กด์ฌ๋ฅผ ๋ฐํ๋ด๊ณ , process supervision์ด ์ ๊ณต๋๋ฉด proces supervision์ ๋์ฑ ํฐ ์ ๋ณด์ ์ฅ์ ์ ๊ฐ์ง๊ฒ ๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ๊ฒฐ์ ์ ์ฌ๋๊ณผ ๋น์ทํ ๋ผ๋ฒจ๋ง ๋น์ฉ์ ์ ์งํ๋ค: ํ์ธํ๊ธฐ ์ฌ์ด final answer์ ์์กดํ์ง ์๊ณ ์๋ฃจ์ ์ ์ ํ์ฑ์ ๊ฒฐ์ ํ๋ ๊ฒ์ ์ฒซ ๋ฒ์งธ ์ค์๋ฅผ ์๋ณํ๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๋๋ถ๋ถ์ MATH problem์ easy-to-check final anser๋ฅผ ๊ฐ์ง์ง๋ง, ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด ๋์ฑ ๋ณต์กํ ๋๋ฉ์ธ์์๋ ์ ์ง๋ ๊ฒ์ด๋ผ๊ณ ๋ ์๊ฐํ์ง ์๋๋ค๊ณ ์์ํ์๋ค.
3. Large-scale Supervision
๋ ผ๋ฌธ์์๋ PRM800K์ step-level ๋ผ๋ฒจ์ ์ฌ์ฉํด์ ๋๊ท๋ชจ PRM์ ํ์ต์์ผฐ๋ค. ๋๊ท๋ชจ ORM baseline์ด ๊ฐ๋ ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฅํ๊ธฐ ์ํด ๋ฌธ์ ๋น 100๊ฐ์ generator๋ก๋ถํฐ ์์ฑ๋ ๊ท ์ผํ ์ํ์์ ํ์ต์์ผฐ๋ค. ์ด๊ฒ์ PRM800K์ ์ค๋ฒ๋ฉ์ด ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋น๋ก ์ด๋ฌํ 2๊ฐ์ training set๋ ์ง์ ์ ์ผ๋ก ๋น๊ตํ ์ ์์ง๋ง, ๊ฐ๊ฐ์ SoTA๋ฅผ ๋ฐ์ ์ํค๊ธฐ ์ํ ์ต๊ณ ์ ์๋๋ฅผ ๋ํ๋ธ๋ค. ๋ ผ๋ฌธ์์๋ ORM์ ํ์ต์ํค๋ ๊ฒ์ ๋ฌธ์ ๊ฐ ์์ ์ ์๋๋ฐ, ์๋ํ๋ฉด active learning ์ ๋ต์ด wrong-anser ์๋ฃจ์ ์ ๋ํ ๋ฐ์ดํฐ์ ์ ํฌ๊ฒ ํธํฅ๋์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ท ์ผํ๊ฒ ์ํ๋ง๋ ์๋ฃจ์ ์ ๋ฌถ์์ผ๋ก์จ PRM800K ์๋ฃจ์ ์ superset์์ ORM์ explore training์ ์ํํ์ง๋ง, ORM ์ฑ๋ฅ์ ๊ฐ์ ๋์ง ์์๋ค.
๊ทธ๋ฆผ 3์ $N$์ ํจ์๋ฅผ ๋ค์ํ๊ฒ ํจ์ ๋ฐ๋ผ ๊ฐ RM์ best-of-N ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ๋ณด์ฌ์ฃผ๊ณ ์๋ค. majority voting์ ๊ฐ๋ ฅํ baseline์ผ๋ก ์๋ ค์ ธ ์๊ธฐ ๋๋ฌธ์ ์ด method๋ฅผ ๋น๊ต์ ํฌ์ธํธ๋ก ํฌํจํ์๋ค. ORM์ majority voting๋ณด๋ค ์ด์ง ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, PRM์ ์ด ๋์ ๊ฐํ๊ฒ ๋ฅ๊ฐํ๋ค. ์ด๊ฒ์ PRM์ด ๋ง์ ์์ model-generated ์๋ฃจ์ ์ ๋ํด ๊ฒ์ํ๋๋ฐ ORM๊ณผ majority voting ๋ณด๋ค ๋ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค. PRM๊ณผ majority voting์ ์ด์ต์ ๋ฌถ๊ธฐ ์ํด RM-weighted voting์ ์ฌ์ฉํด์ ์คํ์ ์งํํ์๋ค. ํ์ง๋ง, ์ฑ๋ฅ์ ๋์ ๋๊ฒ ๊ฐ์ ์ํค์ง๋ ์์๋ค.
4. Small-scale Synthetic Supervision
PRM์ ๋๊ท๋ชจ์์ ORM์ ๋ฅ๊ฐํ์ง๋ง, ์ด ๊ฒฐ๊ณผ ํผ์๋ก๋ ์๋ฒฝํ์ง ์์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฐ๋ค. outcome & process supervision์ ๋ ์ ๋น๊ตํ๊ธฐ ์ํด, ์ฌ๊ธฐ์๋ ๊ณ ๋ฆฝ๋์ด์ผ๋ง ํ๋ 2๊ฐ์ ํผ๋์ ๋น ๋จ๋ฆฌ๋ ์์ธ์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ์์ธ๋ค์ ORM์ ์ฑ๋ฅ์ ํด๋ฅผ ๊ฐํ ์๋ ์๋ค.
- ORM๊ณผ PRM์ ์ํ training set๋ ์ง์ ์ ์ผ๋ก ๋น๊ต๊ฐ ๋์ง ์์
- final-answer grading์ correct answer์ ๋๋ฌํ์ง๋ง, ์๋ง์ง ์์ ์ถ๋ก ์ ํ๋ ์๋ชป๋ ์๋ฃจ์ ์ ๋ํด positive ๋ผ๋ฒจ์ ์ ๊ณตํด ์ค
human feedback ์์ง์ ๋น์ผ ๋น์ฉ ๋๋ฌธ์ human labeler๋ฅผ ์ฌ์ฉํด์ ์ฝ๊ฒ ablate ํ ์ ์๋ค. ๊ทธ ๋์ ์ ๋๊ท๋ชจ RM์ ์ฌ์ฉํด์ smaller model์ supervise ํ๋ ๋ฐ ์ฌ์ฉํจ์ผ๋ก์จ ์ฐ๊ด๋ ablation์ ์ํํ์๋ค. ์ด ์ ์ ์ ์์ํ ๋น์ฉ์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ๊ฐ๋ฅํ๊ฒ ํด ์ค๋ค.
4-1. Process vs. Outcome Supervision
๋ ผ๋ฌธ์์๋ outcome & process supervision์ ์ง์ ์ ์ธ ๋น๊ต๋ฅผ ์ํํ์๋ค. ์๊ท๋ชจ generator๋ก๋ถํฐ ๋ฌธ์ ๋น 1๊ฐ๋ถํฐ 200๊ฐ์ ์๋ฃจ์ ์ ์ํ๋งํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํด 3๊ฐ์ง ํํ์ supervision์ ์ ๊ณตํ์๋ค.
- process supervision w/ $PRM_{large}$
- outcome supervision w/ $PRM_{large}$
- outcome supervision w/ final-answer checking
๊ทธ๋ฆผ 4(a) ์์ process supervision๋ ๋ชจ๋ ๋ฐ์ดํฐ ์์ง ๊ท๋ชจ์์ outcome supervision์ ๋ ํํ๋ฅผ ์๋นํ ๋ฅ๊ฐํ์๋ค. ๊ทธ๋ฆผ 4(b)์์ outcome supervision w/ $PRM_{large}$๋ final-answer checking๋ณด๋ค ๋์ฑ ํจ๊ณผ์ ์ด์๋ค. ์ด๋ $PRM_{large}$๊ฐ incorrect ์ถ๋ก ์ ์ฌ์ฉํด์ correct final answer์ ๋๋ฌํ๋ ์๋ฃจ์ ์ ๋ํ ๋ ๋์ $PRM_{large}$๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ด๋ค.
$PRM_{large}$์ final-answer checking์ผ๋ก๋ถํฐ ์ป์ด์ง supervision ์ค ๋ฌด์์ด ๋ ์ ์ ํ baseline์ ๋ํ๋ด๋์ง๋ ๋ถ๋ช ํ์ง ์๋ค. final-answer supervision์ ์ฃผ๋ ์ฝ์ ์ false-positive๊ฐ ์๋ค๋ ์ ์ธ๋ฐ $PRM_{large}$๋ก๋ถํฐ ์ป์ outcome supervision์ ๋ ์ ๊ฒ false-positive์ ๊ธฐ์ธํ๋ ๋๋ฉ์ธ ๋ด์์์ ๋ ๋์ outcome supervision์ ๋ํ๋ธ๋ค.
4-2. Active Learning
๋ง์ง๋ง์ผ๋ก ๋ ผ๋ฌธ์์๋ active learning์ ํจ๊ณผ๋ฅผ ์กฐ์ฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ ๋ฌธ์ ๋ก๋ถํฐ ํ๋์ ์ํ์์ ์๊ท๋ชจ RM์ธ $PRM_{selector}$๋ฅผ ํ์ต์ํค๊ณ , ์ด ๋ชจ๋ธ์ ์ฌ์ฉํด์ ๋ฌธ์ ๋น 1,000๊ฐ์ ์ํ์ ์ ์๋ฅผ ๋งค๊ฒผ๋ค. ์ ํ๋ ์ํ์ ๋ํด $PRM_{large}$๋ฅผ ์ฌ์ฉํด์ ์ ์๋ฅผ ๋งค๊ธฐ๊ณ ์ด ์ ์์์ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง์ ๋ํ ์ฑ๋ฅ์ ๊ทธ๋ฆผ 4(a)์ ๋ํ๋์๋ค. active learning์ด ์์ ๋์ ์์ ๋ ์ต์ ์ ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋น๊ตํจ์ผ๋ก์จ, ์ด๋ฐ ํํ์ active learning ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ๋ชจ๋ธ์ ์์ํ ํธ๋ ๋ ๋ผ์ธ๋ณด๋ค ์ด์ง ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ์ ๋ํด ๋ ผ๋ฌธ์์ ์ค๋ช ํ ๊ฐ์ฅ best ์ค๋ช ์ 200๊ฐ์ ์ํ๋ก ์ ๋ฐ์ ์ธ ์ ํํ์ ์๋นํ ๋ถ๋ถ์ ๋ํ๋ด๊ณ ๋น๊ต์ ๋ถ์กฑํ ๋ค์์ฑ์ active learning์ผ๋ก๋ถํฐ ๊ฐ๋ฅํ upside๋ฅผ ์ ์ํ๋ค๋ ๊ฒ์ด๋ค.
๋ฐ์ดํฐ ์์ง์ ํ๋ ๋์ $PRM_{selector}$๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ฌํ์ต์ํค๋ ๊ฒ์ ํจ๊ณผ์ ๋ํด ์ฌ์ ์กฐ์ฌ๋ฅผ ์ํํ์๋ค. ํ์ง๋ง ๋ถํํ๊ฒ๋ ์ด ํ๋ก์ธ์ค์์๋ ๋ถ์์ฑ์ด ๊ด์ฐฐ๋์๋ค. ๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ ์์์ ์ธ๊ธํ ๋ชจ๋ธ๋ณด๋ค ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์ง๋ ์์๋ค.
5. OOD Generalization
OOD ์ผ๋ฐํ๋ฅผ ์ธก์ ํ๊ธฐ ์ํด, ๋๊ท๋ชจ ORM๊ณผ PRM์ 224๊ฐ์ STEM question์์ ํ๊ฐํ์๋ค. ํ 1์ ORM, PRM, majority voting์ best-of-100 ์ฑ๋ฅ์ ๊ธฐ๋กํ์๋ค. ๊ฒฐ๊ณผ๋ ์น์ 3๊ณผ ์ ์ฌํ๋ค.
6. Discussion
6-1. Credit Assignment
process supervision์ outcome supervision ๋ณด๋ค ๋์ฑ ์ ํํ ํผ๋๋ฐฑ์ ์ ๊ณตํด ์ค๋ค. process supervision์ ๋ช ๊ฐ์ first step์ fact correct์ธ์ง ๋ช ์ํ ๋ฟ๋ง ์๋๋ผ incorrect step์ ์ ํํ ์์น๋ฅผ ์์๋ผ ์ ์๋ค.
6-2. Alignment Impact
AI alignment์ ๊ด๋ จํด์ process supervision์ ์ฌ๋ฌ ์ด์ ์ ๊ฐ์ง๋ค. process supervision์ ๋์ฑ ํด์ ๊ฐ๋ฅํ ์ถ๋ก ์ ์์ฑํด ๋ด๊ณ , align ๋ CoT์ ์ง์ ์ ์ผ๋ก ๋ณด์์ ์ค์ ๋ณธ์ง์ ์ผ๋ก ๋ ์์ ํ๋ค.
๋ํ ์์ ํ ๋ชจ๋ธ์ ์กฐ๊ธ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋๋ฐ, process supervision์ alignment tax ๋ถ๋ถ์์ ๋ ๋์ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ์ด๊ฒ์ process supervision์ ์ฆ๊ฐ๋ ์ฌ์ฉ์ ์ด๋๊ฒ ๋ ๊ฒ์ด๋ผ๊ณ ๋ฏฟ์ด์ง๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.20050