Introduction SelFee
SelFee๋ KAIST์ LK Lab์์ ๋ง๋ ์๋ก์ด instruction-following LM์ผ๋ก ์๋ต์์ self-feedback์ ์์ฑํ๊ณ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐํด์ self-revise ํ๋ ๋ชจ๋ธ์ด๋ค. ChatGPT์ ์ํด ์์ฑ๋ self-feedback๊ณผ revision data๋ฅผ ํฌํจํ๋ 178K ๊ฐ์ training instance๋ฅผ ์ฌ์ฉํด์ LLaMA model(7B & 13B)์ fine-tune ํ์๋ค.
Vicuna Evaluation์์ ๋ SelFee(7B & 13B) ๋ชจ๋ธ์ LLaMA, Alpaca, Vicuna, Guanaco๋ฅผ ๋ฅ๊ฐํ๊ณ ChatGPT์ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. SelFee๋ ํนํ high-quality text๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ฐ๋ณต์ ๊ธ์ฐ๊ธฐ ํ๋ก์ธ์ค๋ฅผ ํ์๋ก ํ๋ ์ฐฝ์์ ๊ธ์ฐ๊ธฐ ๋๋ ์ฅ๋ฌธ ํ ์คํธ ์์ฑ์์ ํจ๊ณผ์ ์ด๋ค. ํ์ง๋ง, ๋ค๋ฅธ open-source model๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ์ํ, ์ถ๋ก , ์ฌ์ค์ฑ, ์ฝ๋ฉ ๊ด๋ จ task์์๋ closed-API model์ ๋นํด ์คํจํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๊ฒ์ ๋ ๋์ ์ฌ์ค์ฑ์ ์ํด ๋ ๋์ base LM์ด ํ์ํ๋ค๋ ๊ฒ์ ์ ์ํ๋ค(The False Promise of Imitating Proprietary LLMs). ๊ทธ๋ฆฌ๊ณ ํ๊ฐ ์ธํ ์์ ์ข ํฉ์ฑ๊ณผ ์ผ๊ด์ฑ์ ์ ์ฝ์ ๊ฐ๋๋ค๋ ๊ฒ์ ์ธ์ ํด ํฅํ์ ๋ ๋์ ํ๊ฐ ์ ์ ์์ ํ๊ฐํ๊ณ ์ ํ๋ค๊ณ ํ๋ค.
Overview of SelFee
TL;DR. Self-Feedback ์์ฑ์ ํจ๊ณผ์ ์๊ฐ์ ๋ฐ์ self-feedback๊ณผ self-revision ์์ฑ์ ์ fine-tune ๋ ๋ชจ๋ธ์ ๊ณต๊ฐํ์๋ค. ์ด์ ์ ๋ฐฉ์๋ค๊ณผ ๋ฌ๋ฆฌ SelFee๋ ๋ฌธ์ ๊ฒ์ ํ๋ก์ธ์ค, few-shot ์ค๋ช , ๊ฑฐ๋ LLM ๋๋ task-specific ๋ชจ๋ธ์ ํ์๋ก ํ์ง ์๋๋ค.
SelFee๋ LLaMA ๊ธฐ๋ฐ์ instruction-following ๋ชจ๋ธ๋ก single ์ถ๋ก ์์ high-quality ์๋ต์ ์ ๊ณตํ๊ธฐ ์ ๊น์ง ์์ ์ answer๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก fine-tune ํ๋ค. ์๋ฅผ ๋ค์ด instruction $Q$๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ์ answer $A$๋ฅผ ์์ฑํ ๋ฟ๋ง ์๋๋ผ ํผ๋๋ฐฑ $F$๋ ์์ฑํ๋ค. ์ด ๊ณผ์ ์ ํผ๋๋ฐฑ์์ ํต๊ณผ๋ฅผ ์์ผ์ค ๋๊น์ง ๋ฐ๋ณตํ๋ค. ์ด๋ ๊ฒ ๊ฐ๋จํ task๋ก SelFee๋ ๊ธฐ์กด์ LLaMA ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
SelFee์ Contribution
- ๋ค์ํ ์์ค(ShareGPT, Alpaca, Math, Code, Flan collection)๋ก๋ถํฐ instruction data๋ฅผ ์์งํด์ 178K ๊ฐ์ training instance์ ๋ฐ์ดํฐ์ ์ ์ป์
- teacher LLM์ธ ChatGPT๋ก๋ถํฐ distillation์ ํตํด feedback & revision instance๋ฅผ augment ํ์์. ์ด ํ๋ก์ธ์ค๋ feedback & reivison data์ ๋ถ์กฑํจ์ผ๋ก ๋ ์ ์ ๋น์ฉ์์ ํด๊ฒฐํ ์ ์๊ฒ ๋์์ค
- ๋ชจ๋ธ์ด revision์ ๊ฒช๋๋ก ๊ฐ์ํจ์ผ๋ก์จ ์ต์ข answer์์ ๊ฐ์ ์ ๊ด์ฐฐํ ์ ์์์. ์ด๊ฒ์ ๋์ฑ ๊ธด ์ํ์ค๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ถ๋ก computation์ scaling ํ๋ ๊ฒ์ด ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ scaling ํ๋ ๊ฒ๋ณด๋ค ๋ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์์ํจ
Data Collection & Augmentation
๋ฐ์ดํฐ ์์ง ๋ฐ augmentation ํ๋ก์ธ์ค๋ ๋ค์์ 3 step์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
- ์ฌ๋ฌ ์์ค๋ก๋ถํฐ ๋ค์ํ instruction์ ์์งํ๊ณ ํด๋น ์๋ต์ ์์ฑํ๊ธฐ ์ํด ChatGPT์ ์ด๋ค์ ์ ๋ ฅํจ
- ChatGPT์๊ฒ ๋ค์ ํ ๋ฒ ์ฟผ๋ฆฌํจ์ผ๋ก์จ ์์ฑ๋ answer์ ๋ํ ํผ๋๋ฐฑ์ ์ป๊ณ , ์ด๊ธฐ answer์ ์ด๋ค ์์ ์ด ํ์์ ์ผ๋ก ํ์ํ์ง ํ๊ฐํ๋๋ก ๋ฌผ์ด๋ด
- ์์ ์ด ํ์ํด ๋ณด์ด๋ฉด, ChatGPT๊ฐ self-generated ํผ๋๋ฐฑ์ ๊ธฐ๋ฐํด์ answer๋ฅผ ์์งํจ. ์ด ํ๋ก์ธ์ค๋ ๋ชจ๋ธ์ด ์ถ๊ฐ์ ์ธ ์์ ์ด ํ์ํ์ง ์๋ค๊ณ ๊ฒฐ์ ํ ๋๊น์ง ๋ฐ๋ณตํจ
data augmentation์ ์ํด ์ด 5๊ฐ์ ์๋ก ๋ค๋ฅธ ์์ค์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค. ๊ฐ๊ฐ Stanford Alpaca, math collection(AQUA, GSM8K, MATH), Code collection(Conala, Deepmind Code Contest, Dr Repair, MBPP), FLAN collection, ShareGPT์ด๋ค.
Training
FaseChat์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. instruction์ด ์ฃผ์ด์ง๋ฉด answer & feedback chain์ ์์ฑํ๋๋ก ๋ชจ๋ธ์ fine-tune ํ์๋ค.
Inference
Effect of Enforcing Revisions. inference ์ค์ answer์ ํ๋ฆฌํฐ๊ฐ ๋ง์ ์์ ์์ ๊ณผ ํจ๊ป ๊ฐ์ ๋๋ ๊ฒ์ ๊ด์ฐฐํ์๋ค. ํ์ง๋ง, ChatGPT๋ฅผ ์ฌ์ฉํ ๋, ์์ ์ ๊ณ์ํ๋ ๊ฒ์ output์ high-quality๋ฅผ ํญ์ ๋ณด์ฅํ์ง๋ ์๋๋ค. ChatGPT๊ฐ ๋ ์ด์์ ์์ ์ด ๋ถํ์ํ๋ค๊ณ ํ๋จํ์ ๋ ์์ ์ ๊ฐ์ ํ๋ฉด ์ค์ ๋ก ์ถ๋ ฅ ํ์ง์ด ์ ํ๋๋ค๋ ๊ฒ์ด ๋ถ๋ช ํ๋ค.
๋ฐ๋ฉด์ SelFee๋ ๋งค question๋ง๋ค ์์ ์ ๊ฑฐ์น๋ ๊ฒ์ด output์ ํ๋ฆฌํฐ๋ฅผ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 3์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ์ต์ 3๋ฒ์ ์์ ์ ๊ฑฐ์น๋ ๊ฒ์ด ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ ์ต์ 3๋ฒ์ ์์ ์ ๊ฑฐ์น 7B SelFee ๋ชจ๋ธ์ด ์์ ์ ์์ ๊ฑฐ์น์ง ์์ 13B SelFee ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๊ฒ์ LM์ inference computation์ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ๊ทธ์ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ๋ ๊ฒ๋ณด๋ค ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์ ์ํ๋ค.
Evaluation
Evaluation setting. Evaluation ์ธํ ์ Vicuna Evaluation์ ๋ฐ๋๋ค. SelFee์ teacher model์ธ ChatGPT์ ๋น๊ตํด์ ์๋ ์ ์๋ฅผ ๊ธฐ๋กํ์๋ค. ๊ทธ๋ฆฌ๊ณ Vicuna Evaluation์ positional bias๋ฅผ ์์น๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉด์ ์ด 2๋ฒ์ ํ๊ฐ๋ฅผ ๊ฑฐ์ณ์ ํด๊ฒฐํ์๋ค.
Limitations
SelFee๋ Vicuna Evaluation์์ ChatGPT์ ๋ฒ๊ธ๊ฐ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ผ๋, ChatGPT์ ๋น๊ตํด์ ์ํ, ์ถ๋ก , ์ฌ์ค์ฑ, ์ฝ๋ฉ ๊ด๋ จ ์ง์์ด ๋ถ์กฑํ๋ค. ์ด๋ฌํ ํ๊ณ์ ์ ํ์ฌ open-source ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ํ๊ณ์ ์ผ๋ก ๋ ๋์ base model์ ๋ง๋ค๊ธฐ ์ํ ํฅํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ฌ์ evaluation setting์ด ์๋ฒฝํ์ง ์๊ธฐ ๋๋ฌธ์, ์ข ๋ ๋์ evaluation metric์ด ํ์ํ๋ค.
Online Demo
SelFee์ online demo๋ ์ฌ๊ธฐ์ ํ์ธ ๊ฐ๋ฅํ๋ค!!
์ถ์ฒ
https://kaistai.github.io/SelFee/