The overview of this paper
์ด์ ์ KD๋ ์ฃผ๋ก black-box model API๋ฅผ ๋ชจ๋ฐฉํ๊ธฐ ์ํด white-box ๋ถ๋ฅ ๋ชจ๋ธ ๋๋ small model์ ํ์ต์ํค๋๋ฐ ์ ์ฉ๋๋ค. white-box ์์ฑ LLM์ผ๋ก๋ถํฐ ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก distill ํ๋์ง๋ ์์ง under-explore ๋์ด ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ forward KLD๋ฅผ reverse KLD๋ก ๋์ฒดํจ์ผ๋ก์จ ์์ฑ์ larger LM์ผ๋ก๋ถํฐ smaller LM์ distill ํ๋ MiniLLM์ ์๊ฐํ์๋ค. ์ด๊ฒ์ student model์ด teacher ๋ถํฌ์ low-probability ์์ญ์ ๊ณผ๋ํ๊ฒ ํ๊ฐํ๋ ๊ฒ์ผ๋ก๋ถํฐ ๋ชจ๋ธ์ ๋ณดํธํ๊ธฐ ๋๋ฌธ์ ์์ฑ์ LM์ ๋์ฑ ์ ํฉํ LM์ด๋ค. MiniLLM์ ์ ๋ฐ์ ์ผ๋ก ๋์ ํ๋ฆฌํฐ, ๋ฎ์ bias ๋ ธ์ถ, ๋ ๋ฎ์ calibration, ๋ ์ข์ long-text ์์ฑ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๋์ฑ ์ ํํ ์๋ต์ ์์ฑํด ๋ธ๋ค.
Table of Contents
1. Introduction
2. Methods
3. Experiments
1. Introduction
KD๋ ๋ง์ ์์ computing ์์์ ๋ํ ํ์๋ฅผ ๊ฐ์์ํจ๋ค. ์ด KD์๋ ๋ค์์ 2๊ฐ์ง ์ข ๋ฅ๊ฐ ์๋ค.
- black-box KD: teacher ์์ธก๋ง ์ฌ์ฉ ๊ฐ๋ฅ
- white-box KD: teacher ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉ ๊ฐ๋ฅ
student model์ white-box KD๋ก๋ถํฐ ๋ ๋ง์ ๊ฒ์ ๋ฐฐ์ธ ์ ์์ง๋ง, ์ง๊ธ๊น์ง๋ white-box KD w/ ์์ฑ LLM์ด ๋ณ๋ก ํ๊ตฌ๋์ง ์์๋ค.
์ด ๋ ผ๋ฌธ์์๋ LLM์ white-box KD๋ฅผ ์กฐ์ฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ KLD objective๋ forward KLD๊ฐ ์ฌ์ฉ๋์์ง๋ง, ์ด๋ ๋ถ๋ฅ task์์๋ $p(y|x)$์ $q_{\theta}(y|x)$๊ฐ ์ ์ ์์ ๋ชจ๋๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ๊ฐ ์์๋ค. ํ์ง๋ง open text generation task๋ output space๊ฐ ๋์ฑ ๋ณต์กํ๊ณ $p(y|x)$๋ $q_{\theta}(y|x)$๊ฐ ํํํ ์ ์๋ ๋ชจ๋๋ณด๋ค ๋ ๋ง์ ๋ชจ๋๋ฅผ ๊ฐ์ง๋ค. ๋ฐ๋ผ์ forward KLD๋ฅผ ์ต์ํํ๋ ๊ฒ์ ํฉ๋นํ์ง ์๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด reverse KLD๋ฅผ ์ต์ํํ๋ ๊ฒ์ ์ ์ํ์๋ค. $KL[q_{\theta}||p]$๋ฅผ ์ต์ํํ๋ ๊ฒ์ $q_{\theta}$๊ฐ $p$์ ์ฃผ์ ๋ชจ๋๋ฅผ ๊ฒ์ํ๊ฒ ํด์ฃผ๊ณ , $p$์ ๋น์ด ์๋ ๊ณต๊ฐ์๋ ๋ฎ์ ํ๋ฅ ๊ฐ์ ์ง์ ํด์ค๋ค. ๋ํ $min_{\theta} KL[q_{\theta}||p]$๋ฅผ ์ต์ ํํ๊ธฐ ์ํด Policy Gradient๋ฅผ ์ฌ์ฉํด์ objective์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ํ์ต์ํค๋๋ฐ ๋์ ๋ถ์ฐ, reward ํดํน, ์์ฑ ๊ธธ์ด bias ๋ฑ์ ๋ฌธ์ ๋ฅผ ๊ฒช๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๊ณ , ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํด๊ฒฐํ์๋ค.
- ๋ถ์ฐ์ ์ค์ด๊ธฐ ์ํด sigle-step ์ ๊ทํ ์งํ
- reward ํดํน์ ์ํํ๊ธฐ ์ํด teacher-mixed ์ํ๋ง ์งํ
- ๊ธธ์ด bias๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํด length ์ ๊ทํ ์งํ
2. Methods
๋ ผ๋ฌธ์์๋ KD๋ฅผ teacher ๋ชจ๋ธ ๋ถํฌ์ student model ๋ถํฌ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ์ต์ ํ ๋ฌธ์ ๋ก ๊ณ ์ํ์๋ค. ๊ธฐ์กด์ ์ฌ์ฉ๋๋ forward KLD $KL[p||q_{\theta}]$๋ $q_{\theta}$๊ฐ $p$์ ๋ชจ๋ ๋ชจ๋๋ฅผ ์ปค๋ฒํ ์ ๋๋ก ์ถฉ๋ถํ ํํ๋ ฅ์ด ์์ ๋ language generation task์์ $p$์ ๋น์ด ์๋ ์์ญ์ ๊ณผ๋ ํ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์๋ค.
2-1. MiniLLM: Knowledge Distillation with Reverse KLD
๋ ผ๋ฌธ์์๋ student & teacher ๋ถํฌ ๊ฐ์ reverse KLD๋ฅผ ์ต์ํํ๋ ๊ฒ์ MiniLLM์ learning objective๋ก ์ผ์๋ค.
$q_{\theta}$๋ $p$์ ๊ฑฐ๋ํ ๋ชจ๋์ ๋ํด ๋์ ํ๋ฅ ์ ์ง์ ํ๊ณ , ์์ ๊ฒ๋ค์ ๋ํด์๋ ๋ฌด์ํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆผ 2์ฒ๋ผ forward KLD ์ต์ํ๋ $p$์ ์ํ๋ฅ ์์น์ ํฐ ํ๋ฅ ์ ๋ถ์ฌํ์ง๋ง, reverse KLD๋ $p$์ ์ฃผ์ ๋ชจ๋์ ์ง์คํ๋ ๊ฒ์ ์ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ LLM์ reverse KLD๋ฅผ ์ต์ํ์ํค๋ KD method๋ฅผ ๊ทธ๋ฆผ 3์ฒ๋ผ MiniLLM์ผ๋ก ์ด๋ฆ ์ง์๋ค. seqKD์ ๋ฌ๋ฆฌ MiniLLM์ teacher ๋ถํฌ $p$๋ก๋ถํฐ ์ํ๋ง๋ ๋ชจ๋ $y$์ ๋ํด $q_{\theta}$๋ฅผ ๋ง์ถ๋๋ก ๊ฐ์ํ์ง ์๋๋ค. ๊ทธ ๋์ ์, student model์ด ์์ ์ ๋ฅ๋ ฅ ๋ด์์ teacher๊ฐ ์ ํธํ๋ ์ํ์ ์์ฑํ๋๋ก ๊ถ์ฅํ๋ฉฐ, ์ด๋ ์ฑ์ทจ ๊ฐ๋ฅ์ฑ์ด ๋ ๋๋ค.
2-2. Optimization with Policy Gradient
Gradient Derivation. ๋ ผ๋ฌธ์์๋ objective function์ ๊ธฐ์ธ๊ธฐ๊ฐ Policy Gradient ์ ๋ฆฌ๋ฅผ ์ฌ์ฉํด์ ๋ค์๊ณผ ๊ฐ์ด ์ป์ด์ง ์ ์๋ค๊ณ ๋งํ๋ค.
์ฌ๊ธฐ์ $T = |\mathbf{y}|$์ด๊ณ $R_{t} = \sum_{t'=t}^{T} log \frac{p(y_{t'}|\mathbf{y}_{<t'}, x)}{q_{\theta}(y_{t'}|\mathbf{y}_{<t'}, x)}$๋ ๊ฐ ์คํ ์์ฑ์ ํ๋ฆฌํฐ๋ฅผ ์ธก์ ํ๋ $r_{t'} = log \frac{p(y_{t'}|\mathbf{y}_{<t'}, x)}{q_{\theta}(y_{t'}|\mathbf{y}_{<t'}, x)}$์ ์ถ์ ์ด๋ค. ์ง๊ด์ ์ผ๋ก teacher ๋ถํฌ ํ์์ high probability๋ฅผ ๊ฐ์ง๊ธฐ ์ํด $p(y_{t'}|\mathbf{y}_{<t'}, x)$๊ฐ ์ฆ๊ฐ๋๊ธธ ์ํ์ง๋ง, ๋์์ $q_{\theta}(y_{t'}|\mathbf{y}_{<t'}, x)$๋ฅผ ๋ฎ์ถค์ผ๋ก์จ ๋ค์์ฑ์ ์ ์งํ๊ธฐ๋ฅผ ์ํ๋ค. ํ์ง๋ง, ์์ง ๋ช ๊ฐ์ง ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์๋๋ฐ, ๋ ผ๋ฌธ์์๋ ์ด ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํ 3๊ฐ์ง ์ ๋ต์ ์ ์ํ์๋ค.
Single-Step Regularization. single-step ์์ฑ ํ๋ฆฌํฐ $r_{t}$๋ ๋ถ์ฐ์ ํ์ตํ๋๋ฐ ์ค์ํ๋ค. $r_{t}$์ ๋ ์ ์ง์คํ๊ธฐ ์ํด $R_{t}$๋ก๋ถํฐ $r_{t}$๋ฅผ ๋ถํ ํ๊ธฐ ์ํด $\bigtriangledown \mathbf{J}(\theta)$๋ฅผ ์ฌ์์ฑํ๊ณ $\mathbb{E}_{y_{t} ~ q_{\theta}(t)}[r_{t}]$์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ๊ทํ๋ก ์ง์ ์ ์ผ๋ก ๊ณ์ฐํ์๋ค.
์ด๋ฌํ ์ ๊ทํ๋ ํ์ต ์ค์ ๋ถ์ฐ์ ์ค์ฌ์ฃผ๊ณ ์๋ ด์ ๊ฐ์ํ์์ผ ์ฃผ๋ single-step ์์ฑ ํ๋ฆฌํฐ์ ๋์ฑ ์ ํํ๊ณ ํจ์จ์ ์ธ ์ธก์ ์ ์ค๋ค.
Teacher-Mixed Sampling. ๋ ผ๋ฌธ์์๋ reward ํดํน์ ์ค์ด๊ธฐ ์ํด teacher & syudent ๋ถํฌ๋ฅผ ๊ฐ time step์์ ์์๋ค.
์ฌ๊ธฐ์ $\alpha$๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก teacher mix-in์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ค. $\tilde{p}$๋ก๋ถํฐ์ ์ํ๋ง์ด teacher์ ๋์์ผ๋ก low-quality ์์ฑ์ ์ต์ ํ๊ณ , reward ํดํน์ ์ํ์์ผ ์ค๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์ธ๊ธฐ์ unbiased ์ธก์ ์๋ฅผ ์ป๊ธฐ ์ํด $(\bigtriangledown \mathbf{J})_{Main}$๊ณผ $(\bigtriangledown \mathbf{J})_{Reg}$๋ฅผ importance smapling๊ณผ ํจ๊ป ์ฌ์์ฑํ์๋ค.
์ฌ๊ธฐ์ $w_{t}$๋ importance weight์ธ๋ฐ, $w_{t}$๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ์ ๋ํด ๋งค์ฐ ๋ฏผ๊ฐํ๊ณ , ๋๋ฆฌ๊ฒ ์๋ ดํ๊ฒ ๋๋ค. ๊ทธ๋์ ์ธก์ ์์ ๋ถ์ฐ์ ๋ฎ์ถ๊ธฐ ์ํด $w_{t} \approx \frac{q_{\theta}(y_{t'}|\mathbf{y}_{<t'}, x)}{\tilde_{p}(y_{t'}|\mathbf{y}_{<t'}, x)}$๋ก ๊ทผ์ฌํ์๋ค.
Length Normalization. long sequence๋ ์์ $R_{t+1}$์ ๊ฐ์ง๋ ๊ฒฝํฅ์ด ์๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด ์งง์ ์๋ต์ ์์ฑํ๋๋ก ๋ถ๋์์ค๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ length normalization์ $R_{t+1}$์ ์ถ๊ฐํ์๋ค.
In Summary. ์์ ๋์ด๋ ์ ๋ต์ ๋ฌถ์ด์, ๋ค์๊ณผ ๊ฐ์ด ์ต์ข ์ต์ ํ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ป์ ์ ์์๋ค.
2-3. Training Algorithm
MiniLLM์ training algorithm์ ์๊ณ ๋ฆฌ์ฆ 1์ ๋ํ๋ ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ์ฅ ๋ฎ์ validation loss๋ฅผ ๊ฐ์ง๋ training data์์ fine-tune ๋ checkpoint๋ก๋ถํฐ student model์ ์ด๊ธฐํํ์๋ค. ๊ทธ๋ฆฌ๊ณ $(\bigtriangledown \mathbf{J})_{Main}$์ PPO clipping ์ ๋ต์ ์ถ๊ฐํด์ ํ์ต ์์ ์ฑ์ ๊ฐ์ ์์ผฐ๋ค. ๋ํ ํ์ต ํจ์จ์ฑ์ ๊ฐ์ ์ํค๊ธฐ ์ํด PPO์์ value network์ KL ์ ๊ทํ๋ฅผ ์ฌ์ฉํ์ง๋ ์์๋ค. ๊ทธ๋ฆฌ๊ณ pre-training corpus์ language modeling loss $L_{PT}$๋ฅผ ์ถ๊ฐํ์๋ค.
3. Experiments
3-1. Experimental Setup
๊ฑฐ๋ ๋ชจ๋ธ์ instruction-response ๋ฐ์ดํฐ์ $D$์์ fine-tune ํจ์ผ๋ก์จ teacher $p$๋ฅผ ๋ง๋ค์๋ค. ๊ทธ๋ค์์ teacher์ ์ง๋์ ํจ๊ป $D$์์ smaller student model์ distill ํ๊ธฐ ์ํด ์๋ก ๋ค๋ฅธ KD method๋ฅผ ๋น๊ตํ์๋ค.
Base Models. 3๊ฐ์ง ์ข ๋ฅ์ ๋ชจ๋ธ์ ๋ค์ํ ์ฌ์ด์ฆ๋ฅผ ์ฌ์ฉํด์ distill ํ์๋ค.
- OPT(1.3B, 2.7B, 6.7B) - teacher model: OPT-13B
- GPT-2(120M, 340M, 760M) - teacher model: GPT-2-1.5B
- LLaMA(7B) - teacher model: LLaMA-13B
Training. training data๋ก databricks-dolly-15k๋ฅผ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ $D_{PT}$์ ๋ํด GPT-2๋ OpenWebText๋ฅผ ์ฌ์ฉํ๊ณ ๋ค๋ฅธ ๋ชจ๋ธ์๋ RoBERTa training corpus๋ฅผ ์ฌ์ฉํ์๋ค.
Evaluation. ๋ ผ๋ฌธ์์๋ 5๊ฐ์ instruction-following ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ๋ชจ๋ธ์ ํ๊ฐํ์๋ค.
- DollyEval
- SelfInst
- VicunaEval
- S-NI
- UnNI
๋ํ model-generated ์๋ต์ ํ๊ฐํ๊ธฐ ์ํด 2๊ฐ์ metric์ ์ฌ์ฉํ์๋ค.
- ROUGE-L
- GPT-4
Baselines. ๋ ผ๋ฌธ์์๋ ๋ฉ์ธ ์คํ์์ ์ด 3๊ฐ์ baseline์ ๊ณ ๋ คํ์๋ค.
- SFT w/o KD: student model์ golden response๋ก supervise ๋ $D$์์ ๋ฐ๋ก fine-tune
- KD: student model์ teacher-generated data์์ fine-tune
- SeqKD: student model์ teacher-generated data์์ fine-tune
3-2. Results
ํ๊ฐ ๊ฒฐ๊ณผ๋ ํ 1์ ๋ํ๋ ์๋ค.
์ด ๊ฒฐ๊ณผ๋ฅผ ํตํด ๋ ผ๋ฌธ์์ ๊ด์ฐฐํ ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- SFT๋ฅผ forward KLD๋ฅผ ์ต์ํํ๋ KD & seqKD์ ๋น๊ตํจ์ผ๋ก์จ ๊ธฐ์กด์ KD method๊ฐ teacher model๋ก๋ถํฐ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ฑ๊ณต์ ์ผ๋ก ์ง์์ distill ํ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
- MiniLLM๊ณผ baseline์ GPT-4 ํผ๋๋ฐฑ score๋ฅผ ๋น๊ตํจ์ผ๋ก์จ ๋ ผ๋ฌธ์ method๋ก distill ๋ ๋ชจ๋ธ์ด ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ baseline์ ๋ฅ๊ฐํ๋ค. ์ด๊ฒ์ MiniLLM์ด ์ ๋ฐ์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ํ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ณด๋ค DollyEval์์ ๋ ์ ์๋ํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋๋ฐ, ์ด๋ ์ข์ OOD ์ผ๋ฐํ๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
- ROUGE-L score๋ MiniLLM์ด ground-truth ์๋ต๊ณผ ๊ฐ์ฅ ๋ง์ ์ค๋ฒ๋ฉ์ ๊ฐ์ง๋ ๊ฐ์ฅ ์ ํํ ์๋ต์ ์์ฑํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
- MiniLLM์ ๊ฐ์ ์ base model์ ์ฌ์ด์ฆ๊ฐ 120M์ผ๋ก๋ถํฐ 13B๋ก ๋ค์ํด์ง์๋ ์ผ๊ด๋์๋ค. ์ด๋ฌํ ๊ฒฝํฅ์ ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๊ณ , ์ด๊ฒ์ ํ๋ฅญํ scalability์ generalization์ ๋ณด์ฌ์ค๋ค.
3-3. Analysis
Exposure Bias. forward KLD๋ exposure bias๋ฅผ ๊ฒช๋๋ค. MiniLLM์์๋ ํ์ต ์ค์ student model๋ก๋ถํฐ ์ํ์ ์์งํ๋๋ฐ ์ด๊ฒ์ด training๊ณผ evaluation ๊ฐ์ ๋ฏธ์ค๋งค์น๋ฅผ ์ํ์์ผ ์ค๋ค.
Calibration. RL-trained model์ ์ ์ข์ calibration์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋์ MiniLLM๊ณผ KD baseline๋ค์ calibration์ ํ ์คํธํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, KD์ seqKD๋ก ํ์ต๋ ๋ชจ๋ธ์ teacher model๋ณด๋ค ์ ์ข์ calibration์ ๋ณด์ฌ์ค๋ค. ์ด๋ forward KLD๋ฅผ ์ต์ํํ๊ธฐ ๋๋ฌธ์ student์ teacher ๋ชจ๋ธ ๊ฐ์ ์๋นํ ๋ถํฌ ์ฐจ์ด๋ฅผ ์ด๋๋ค. ๋ฐ๋ฉด์ MiniLLM์ ํ๊น ๋ถํฌ์ ์ฃผ๋ ๋ถ๋ถ์ ์ ํํ๊ฒ ํ์ตํ๋๋ฐ ์ฃผ๋ชฉํด์, ์ด๊ฒ์ด student & teacher ๊ฐ์ ECE score ๊ฐญ์ ์ขํ๋ค.
Performance on DIfferent Response Length. ์๋ก ๋ค๋ฅธ ๋ฒ์์ golden response ์๋ต ๊ธธ์ด๊ฐ ์ฃผ์ด์ก์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ํด ์ฐ๊ตฌํ์๋ค. ๊ทธ๋ฆผ 4์์๋ ground-truth ์๋ต์ ๊ธธ์ด๋ก ๋ถํ ๋ 3๊ฐ์ S-NI ํ์ ์งํฉ์์ SFT ๋ชจ๋ธ์ ๋ํ ๋ค์ํ KD ๋ชจ๋ธ์ ROUGE-L socre๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์งง์ ์๋ต($\leq 5$)์ ์์ธกํ๋ prompt์์๋ ๋ฎ์ score๋ฅผ ๋ฌ์ฑํ๋ ๋ชจ์ต์ ๋ฐ๊ฒฌํ์๋ค. ์ด๋ training set์ ๋๋ถ๋ถ์ ๊ธด ๋ฌธ์ฅ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ output space๊ฐ ๋น๊ต์ ์์์ reverse & forward KLD๋ ๋น์ทํ ์ฑ๋ฅ์ ๊ฐ์ง๋ค. longer response($\geq 6$)์ prompt์ ๋ํด MiniLLM์ ๊ธฐ์กด KD approach๋ณด๋ค ์ฅ์ ์ ๊ฐ์ก๋ค.
3-4. Ablations
Effect of Optimization Strategies. ์ต์ ํ๋ฅผ ์์ ํ์ํค๊ณ ๊ฐ์ํํ๊ธฐ ์ํด ์ ์๋ 3๊ฐ์ ์ ๋ต์ ๋ํด ablation์ ์งํํ์๋ค. Teacher-Mixed ์ํ๋ง๊ณผ Length Normalization์ training์ ์์ ํ์ํค๊ธฐ ์ํด ํ์์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๋น๋ก ์ด๋ฌํ ์ ๋ต ์์ด๋ reverse KD๋ ๊ฐ์ํ์ง๋ง, ๊ทธ๋ด ๊ฒฝ์ฐ์ ๋ชจ๋ธ์ reward ํดํน์ ๊ฒช์ ๋ฟ๋ง ์๋๋ผ ํ 2์ฒ๋ผ ๋ฎ์ ์์ฑ ์ฑ๋ฅ์ ์ด๋๋ค. ๊ทธ๋ฆผ 5๋ก๋ถํฐ Single-Step ์ ๊ทํ๋ training ํ๋ก์ธ์ค์ ๋ถ์ฐ์ ํจ๊ณผ์ ์ผ๋ก ์ค์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
Effect of Teacher-Mix-in Strength $\alpha$. ๊ทธ๋ฆผ 6์์ ์๋ก ๋ค๋ฅธ teacher-mix-in strength $\alpha$์์ MiniLLM์ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ $\alpha = 0.2$๊ฐ ๊ฐ์ฅ ์ ์ ํ์๋ค.
Effect of Adding Pre-training Loss. ํ 3์์ pre-training loss๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ํจ๊ณผ๋ฅผ ์ฐ๊ตฌํ์๋ค. PT loss๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด instruction-following task์์์ ์ฑ๋ฅ์ ๊ฑฐ์ ๋ณํ ์์ด ์ ์งํ๋ฉด์ NLP task์์์ ๋ฅ๋ ฅ์ ๋ณด์กดํ๋๋ฐ ๋์์ ์คฌ๋ค.