The overview of this paper
weaker LM์ ๊ฐ์ ์ํค๊ธฐ ์ํ ๊ฐ์ผ method๋ stronger model์ output์์ weaker LM์ fine-tune ํ๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฒ์ weaker open-source ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์
์ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๊ฐ์ธ๊ฒ ํ๋ด ๋ด๋ ๋ฐฉ์์ฒ๋ผ ๋ณด์ธ๋ค. ์ด ๋
ผ๋ฌธ์์๋ ์ด ์ ๊ทผ๋ฒ์ ๋ํด ๋ถ์ํ์๋ค. ์ด๋ฅผ ์ํด ๋ค์ํ ๊ท๋ชจ์ ๋ชจ๋ธ ์ฌ์ด์ฆ, ๋ฐ์ดํฐ ์์ค, ๋ชจ๋ฐฉ ๋ฐ์ดํฐ์ ์์ ์ฌ์ฉํด์ ChatGPT๋ฅผ ๋ชจ๋ฐฉํ๋ LM์ ์๋ฆฌ์ฆ๋ฅผ fine-tune ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ธ์ crwodworker & NLP ๋ฒค์น๋งํฌ์์ ๋ชจ๋ธ์ ํ๊ฐํ์๋ค.
์ด๊ธฐ์ ๋
ผ๋ฌธ์์๋ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ ์ถ๋ ฅ ํ๋ฆฌํฐ์ ๋ํด ๋๋๋ค! ์๋ํ๋ฉด ๋ชจ๋ฐฉ ๋ชจ๋ธ์ด ์ถ๋ ฅ์ด instruction์ ์ ๋ฐ๋ฅด๊ณ crowd worker๋ ์ด๋ค์ ์ถ๋ ฅ์ด ChatGPT์ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ํ๊ฐํ์๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ง๋ง, ๋ชจ๋ฐฉ ๋ชจ๋ธ์ด ๋ ๋ง์ targeted automatic evaluation์ ์ํํ ๋, ๋ชจ๋ฐฉ ๋ฐ์ดํฐ์์ ๋ง์ด ์ง์๋์ง ์๋ task์์ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ด ๊ธฐ๋ณธ LM๊ณผ ChatGPT๊น์ง์ ๊ฒฉ์ฐจ์ ๊ฑฐ์ ๊ทผ์ ํ์ง ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด๋ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ด ChatGPT์ ์คํ์ผ์ ๋ชจ๋ฐฉํ์ง๋ง ๊ทธ ์ฌ์ค์ฑ์ ๋ชจ๋ฐฉํ์ง ์๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ์ฑ๋ฅ์ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ ๊ฒ์ด๋ผ๊ณ ์ฌ๊ธด๋ค.
์ ๋ฐ์ ์ผ๋ก ๋
ผ๋ฌธ์์๋ open & closed LM ๊ฐ์๋ ์๋นํ ๋ฅ๋ ฅ ๊ฐญ์ด ์กด์ฌํ๊ณ , ์ด๋ ๋ค๋ฃจ๊ธฐ ํ๋ ์์ ๋ชจ๋ฐฉ ๋ฐ์ดํฐ ๋๋ ๋์ฑ ์ ์ฉํ base LM์ ์ฌ์ฉํด์๋ง ๊ฐญ์ ์ขํ ์ ์๋ค๊ณ ๊ฒฐ๋ก ์ง์๋ค. ๊ทธ๋ฆฌ๊ณ open-source LM์ ๊ฐ์ ์ํค๊ธฐ ์ํ best method๋ ๋ ๋์ base LM์ ๊ฐ๋ฐํ๋ ์ด๋ ค์ด ๋ฌธ์ ์ ๋์ ํ๋ ๊ฒ์ด๋ผ๊ณ ์ฃผ์ฅํ์๋ค. ๐ฅ
Table of Contents
1. Introduction
2. What is Model Imitation?
3. Building Imitation Datasets
4. Main Results
5. Discussion
1. Introduction
์ต๊ทผ์ ChatGPT, Bard, Claude ๊ฐ์ ๊ฐ๋ ฅํ LM์ด ๊ณต๊ฐ๋๋ฉด์, ๋์์ ์คํ ์์ค LM๋ ๊ธ๊ฒฉํ ์ ๊ตํด์ง๊ณ ์๋ค. ์ด๋ฌํ ํ์์ ์์ผ๋ก LM์ด open-source ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ผ ํ๋์ง ์๋๋ฉด closed-source ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ผ ํ๋์ง์ ๋ํ ์๋ฌธ์ ๋์ง๊ณ ์๋ค. ๊ฐ๊ฐ์ ๊ฒฝ์ฐ๋ ์ฅ๋จ์ ์ ๊ฐ์ง๋ค.
๋
ผ๋ฌธ์์๋ ์ด๋ฌํ ์ง๋ฌธ์ ๋ํ ํ๋์ ๊ฐ๋ฅํ ํด๊ฒฐ์ฑ
์ธ model imitation์ ๋ํด์ ์ฐ๊ตฌํ์๋ค. model imitation์ ์ ์ ๋ ์์
์ LM์ด API๋ฅผ ํตํด ๊ณต๊ฐ๋๋ฉด API ์ถ๋ ฅ ๋ฐ์ดํฐ์
์ ์์งํ ์ ์๊ณ , ์ด๋ฅผ ์ฌ์ฉํด์ open-source LM์ fine-tune ํ ์ ์๋ค. ์ด๋ก ์ ์ผ๋ก ์ด๋ฌํ ๋ชจ๋ฐฉ ํ๋ก์ธ์ค๋ ์ด๋ค ์์
์ฉ LM์ ๋ฅ๋ ฅ์ distillํ๊ธฐ ์ํ ์ฌ์ด method๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋์ ์ด๋ open-source LM์ด ์ด๋ค์ ์์
์ ๋ชจ๋ธ๊ณผ ํญ์ ๊ฒฌ์ฃผ๋ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๋ ๊ฒ์ ์์ํ๋ค. ์ง๊ธ๊น์ง ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ OpenAI์ ์ต๊ณ ์์คํ
๋ค์ ๋ชจ๋ฐฉํ์๊ณ , ์ด๊ธฐ ๊ฒฐ๊ณผ๋ค์ ์ด๋ฌํ ๋ชจ๋ธ๋ค์ด ์์
์ ๋ชจ๋ธ๊ณผ ๊ฑฐ์ ์์ ์ด๋ฃจ๋ ์ฑ๋ฅ์ ์ฑ์ทจํ์๋ค๊ณ ์ฃผ์ฅํ์๋ค.
๋
ผ๋ฌธ์ ๋ชฉํ๋ model imitation์ ํจํ์ ChatGPT์ ๋ณต์ ๋ก ํ์ต์ํค๊ณ ํ๊ฐํจ์ผ๋ก์จ ๋นํ์ ์ผ๋ก ๋ถ์ํ๋ ๊ฒ์ด๋ค. ๋จผ์ ํน์ task์ ๋ํด ChatGPT๋ฅผ ๋ชจ๋ฐฉํ๊ฑฐ๋ ๋ชจ๋ ๋์์์ ๊ด๋ฒ์ํ๊ฒ ๋ชจ๋ฐฉํ๋ ๋ฐ ์ค์ ์ ๋ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์์งํ๋ค. ๋
ผ๋ฌธ์์๋ ๋์ ๋ฒ์์ ๋ชจ๋ธ ์ฌ์ด์ฆ(1.5B-13B), ๋ฒ ์ด์ค ๋ชจ๋ธ(GPT-2 & LLaMA), ๋ฐ์ดํฐ ์(0.3M-150M)์ ์ฌ์ฉํด์ ์ด๋ฌํ ๋ฐ์ดํฐ์
์์ LM์ fine-tune ํ์๋ค. ๋ํ human & GPT-4 evaluation์ ์ฌ์ฉํ ๋ฟ๋ง ์๋๋ผ NLP ๋ฒค์น๋งํฌ(MMLU, NQ, HumanEval)์์ ํ๊ฐ๋ฅผ ์งํํ์๋ค.
๋
ผ๋ฌธ์์๋ ์ด๊ธฐ์ imitation model์ด base ๋ชจ๋ธ์ ์ผ๋ง๋ ๋ฅ๊ฐํ๋์ง์ ๋ํด ๋๋๋ค: ์ด๋ค์ instruction์ ์๋นํ ์ ๋ฐ๋๊ณ , ์ด๋ค์ ์ถ๋ ฅ์ ChatGPT์ ์ถ๋ ค๊ณผ ์ ์ฌํ๊ฒ ๋ํ๋ฌ๋ค. ์ด๋ human & GPT-4 evaluation์์ ์ถ๊ฐ์ ์ผ๋ก ์ง์ง๋์๋ค. ์ด ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด best imitation model์ ์ถ๋ ฅ์ ChatGPT์ ์ถ๋ ฅ๊ณผ ๊ฒฌ์ค ๋งํผ ํ๊ฐ๋์๋ค(๊ทธ๋ฆผ 1 ์ผ์ชฝ).
ํ์ง๋ง ๋ ๋ง์ targeted automatic ํ๊ฐ๋ฅผ ์ํํ ๋, imitation model์ LLaMA & ChatGPT์ ํฐ ์ฑ๋ฅ ๊ฐญ์ด ์์๋ค. ํนํ, ๋
ผ๋ฌธ์์๋ imitation training data์ ํฐ ์ง์ง๋ฅผ ๋ฐ๋ ํ๊ฐ task์์ imitation model์ ๊ฐ์ ๋๋ค๊ณ ์ค๋ช
ํ์๋ค. ๋ฐ๋๋ก imitation training data์ ์ง์ง๋ฅผ ๋ณ๋ก ๋ฐ์ง ๋ชปํ๋ ํ๊ฐ task์์๋ imitation model์ด ๊ฐ์ ๋์ง ์์๋ค. ์๋ฅผ ๋ค์ด broad-coverage user input์ผ๋ก๋ถํฐ์ 100K ChatGPT output์์์ ํ์ต์ Natural Question ์ ํ๋์ ์ด๋ ํ ์ด์ต๋ ์ ๊ณตํ์ง ์๋๋ค(๊ทธ๋ฆผ 1 ์ค์). ํ์ง๋ง Natural-Question-like ์ฟผ๋ฆฌ์ ๋ํ ChatGPT ์๋ต์์์ ํ์ต์ task ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์์ผฐ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋
ผ๋ฌธ์์๋ ์์ ํ imitation์ ์ฌ์ฉํ์ฌ ๊ด๋ฒ์ํ๊ฒ ์ผ์นํ๋ ChatGPT๊ฐ ๋ค์์ ํ์๋ก ํ๋ค๊ณ ๊ฒฐ๋ก ์ง์๋ค:
- ๋ฐฉ๋ํ imitation ๋ฐ์ดํฐ์ ์ ์์งํ๊ธฐ ์ํ ํผ์ ์ ๋ ธ๋ ฅ ๐ฅ
- ๋์ฑ ๋ค์ํ๊ณ ์ข์ ํ๋ฆฌํฐ์ imitation data๊ฐ ํ์ํจ ๐ซก
์ด๋ฌํ ๋ฐ๊ฒฌ์ crowd worker ํ๊ฐ์ NLP ๋ฒค์น๋งํฌ์์ LM ์ฑ๋ฅ์ ๋น์ผ๊ด์ฑ์ ๊ฐ์กฐํ์๋ค. ๋
ผ๋ฌธ์์๋ imitation model์ด crowd worker์ ์ํด ๊ธ์ ์ ์ผ๋ก ํ๊ฐ๋ ์ด์ ๋ ์ด๋ค์ด ChatGPT์ ์คํ์ผ์ ํ๋ด ๋ด๋๋ฐ ๋ฅ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. imitation model์ output์ ๊ทธ๋ด๋ฏํ๊ณ ๊ตฌ์กฐ๋ฅผ ์ ๊ฐ์ถ ๋๋ต์ด์๋ค. ํ์ง๋ง, ์ด๋ค์ ์คํ์ผ์ ๋ฐํด ์ฌ์ค์ฑ์ ์ฝํ๊ณ , ๋๋ฉ์ธ ์ ๋ฌธ ์ง์์ด ์๋ crowdworker ๋๋ ์๋นํ ์๊ฐ ํฌ์๊ฐ ์์ผ๋ฉด ์ด๋ฌํ ์ค๋ฅ๋ฅผ ๋์น ๊ฒ์ด๋ค.
์ ๋ฐ์ ์ผ๋ก ๋
ผ๋ฌธ์์๋ model imitation์ด free lunch๊ฐ ์๋๋ผ๊ณ ์ฃผ์ฅํ๋ค: ์ฌ๊ธฐ์๋ ์ค๋๋ ์ open-source LM๊ณผ ์ด๋ค์ closed-source ๋ชจ๋ธ ๊ฐ์ ๋ฅ๋ ฅ ๊ฐญ์ imitation data์์์ ๊ฐ์ผ fine-tuning์ผ๋ก๋ ์ค์ด๋ค์ง ์๋๋ค(๊ทธ๋ฆผ 1 ์ค๋ฅธ์ชฝ). ์ด ๊ฐญ์ ์ค์ผ ์ ์๋ ๋ฐฉ๋ฒ์ ์ถ๊ฐ์ imitation data์์ fine-tune ํ๊ธฐ๋ณด๋ค base LM์ ์ฌ์ด์ฆ๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด๋ค. ์ด๋ open-source LM์ ๊ฐ์ ์ํค๊ธฐ ์ํ ์ก์
์ ๋ ๋์ base ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ํ ์ด๋ ค์ด ๋ฌธ์ ์ ๋์ ํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ๊ฒ์ ์์ํ๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋
ผ๋ฌธ์์๋ model imitation์ด ๋ง์ฝ ์ถฉ๋ถํ ๊ฐ๋ ฅํ base LM์ ๊ฐ์ง๊ณ ์๋ค๋ฉด high-quality finetuning data์ ๋ํ ์ฃผ์์ ๋ฌ ํ์๋ฅผ ์์ ์ฃผ๋ ์ ์ฉ์ฑ์ ๊ฐ์ง๋ค๊ณ ๋ฏฟ๋๋ค.
2. What is Model Imitation?
์์
์ฉ LM์ ์์
์ฉ base LM๊ณผ ์์
์ฉ fine-tuning ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ด ๋ชจ๋ธ๋ค์ด ์ฌ์ฉ๋ ๋ ์ด๋ค์ black-box API ๋ค์ ์์นํด์ ๋ชจ๋ ์์๋ค์ด ๊ฐ๋ ค์ง๋ค. model imitation์ ๋ชฉํ๋ ๋น์ทํ ์ฑ๋ฅ์ ๋ด๋ LM์ ํ์ต์ํค๊ธฐ ์ํด API๋ฅผ ์ฌ์ฉํด์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ์ด๋ค.
Local versus Broad Imitation. model imitation์ ์ํํ ๋ ํ๋๋ local ‘task-specific’ imitation์ ์ํํ๊ณ ๋ค๋ฅธ ํ๋๋ global ‘broad-coverage’ imitation์ ์ํํ๋ค. local ‘task-specific’ imitation์ ๊ตฌ์ฒด์ task ๋๋ ๋๋ฉ์ธ์์ ํ๊น ๋ชจ๋ธ์ ๋ชจ๋ฐฉํ๋ค. global ‘broad-coverage’ imitation์ ํน์ฑ, ๋๋ฉ์ธ, task์ ๋ชจ๋ ์คํํธ๋ผ์ ๊ฑธ์ณ์ ํ๊น ๋ชจ๋ธ์ธ ๋๋ฆฌ ๋ชจ๋ฐฉํ๋ค. broad-coverage๊ฐ ์ด๋ ค์ด ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋งค์ฐ ๋ค์ํ imitation dataset์ ์์งํด์ผ ํจ
- ๋์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์บก์ฒํด์ผ ํ๊ณ ํ๊น ๋ชจ๋ธ์ ๋ํด ์ ์ฌํ๊ฒ ์ผ๋ฐํํด์ผ ํจ
Our goal. ๋
ผ๋ฌธ์ ๋ชฉํ๋ ์ด๋ฌํจ ์ถ๋ก ์ ๊ฒฐ์ ์ ์ผ๋ก ํ๊ฐํ๋ ๊ฒ์ด๋ค. ํนํ ๋
ผ๋ฌธ์์๋ ChatGPT๋ฅผ ๋ชจ๋ฐฉํ๊ธฐ ์ํด ๋ชจ๋ธ์ ํ์ต์ํจ๋ค. ๋ฐ๋ฉด์ ์๋ก ๋ค๋ฅธ ์๋ก ๋ค๋ฅธ ๊ฒฐ์ ์ ๋ํด ์คํํ๊ณ ์๊ฒฉํ automatic & human ํ๊ฐ๋ฅผ ์ํํ์๋ค.
3. Building Imitation Datasets
๋ ผ๋ฌธ์์๋ task-specific imitation๊ณผ broad-coverage imitation ๋ชจ๋๋ฅผ ๊ณ ๋ คํ์๋ค. model imitation์ ๋ ํํ ๋ชจ๋์ ๋ํด์, ํ๋๋ ํ๊น ๋ชจ๋ธ์ ๋ํด ์ฟผ๋ฆฌ ํ๊ธฐ ์ํด input set๋ฅผ curate ํด์ผ๋ง ํ๋ค. imitation์ input set๋ฅผ ๊ฐ์ง๊ฒ ๋ ๊ฒ์ด๊ณ , ์ด input example ์ธํธ๊ฐ ์ถฉ๋ถํ ํฌ๋ค๋ฉด ์ด๊ฒ์ ์ฌ์ฉํด์ ํ๊น ๋ชจ๋ธ์ ๋ํด ์ฟผ๋ฆฌ ํ ์ ์๊ณ imitation dataset์ ๋ง๋ค ์ ์๋ค. ํฌ๊ณ ๋ค์ํ input pool์ ๋ง๋ค๊ธฐ ์ํด ๋นํ์ค์ ์ด๊ฑฐ๋ ์๋นํ ์์ ๋ ธ๋์ ํ์๋ก ํ๋ ๊ฒฝ์ฐ์, ์ด๊ธฐ์ ์์ input์ seed set์ฒ๋ผ ๋๊ฐ์ ๋ถํฌ์ example์ ๋ฐ๋ณต์ ์ผ๋ก ์์ฑํ๊ธฐ ์ํด LM์ prompting ํจ์ผ๋ก์จ ํฉ์ฑ example์ ๋ง๋ค ์ ์๋ค.
Task-specific imitation. task-specific imitation์ ์ํด, ๋ ผ๋ฌธ์์๋ Natural Question์ ๋ง์ถ imitation dataset์ ์์ฑํ์๋ค. ํนํ ์ฒ์์ validation set๋ก๋ถํฐ 10๊ฐ์ QA ์ seed set๋ฅผ curate ํ์๋ค. ๊ทธ๋ค์์ ChatGPT๋ฅผ 5๊ฐ์ ๋๋ค QA ์๊ณผ prompting ํ๊ณ ์ ์ฌํ์ง๋ง ๋ณ๊ฐ์ example์ ์์ฑํ๊ธฐ ์ํด ChatGPT์๊ฒ ๋ฌผ์ด๋ด์ผ๋ก์จ 6,000๊ฐ์ ์ถ๊ฐ์ example์ ๋ฐ๋ณต์ ์ผ๋ก ์์ฑํ๊ฒ ํด ์ฃผ์๋ค. ๋ชจ๋ example์ single turn์ด๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง ๋ฐ์ดํฐ์ ์ด NQ-synthetic์ด๋ค.
Broad-coverage imitation. broda-coverage imitation data์ ๋ชฉํ๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ ํฌ๊ณ , ๋ค์ํ๊ณ , ์ผ๋ฐ์ ์ผ๋ก high-quality์ธ example์ ๋ฐ์ดํฐ์ ์ ์น์์ API์ ์ํธ์์ฉํ ํ์ ์์ด ์์ง ๊ฐ๋ฅํ๋ค. ๋ ผ๋ฌธ์์๋ ๋ค์์ 3๊ฐ์ง ์์ค๋ก๋ถํฐ example์ ์์งํ์๋ค:
- ShareGPT: ShareGPT ์น ์ฌ์ดํธ์์ ์ฌ์ฉ์๋ค์๊ฒ ์ํด ๊ณต์ ๋ ๋๋ต 90K ๊ฐ์ ๋ํ๋ฅผ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ์ ์งํ๊ธฐ ์ํด query-level์์ ํํฐ๋ง์ ํ๊ณ , ์์ด๊ฐ ์๋ ๋ํ๋ ์ ๊ฑฐํ์๋ค. ์ด๋ ๊ฒ ๋๋ต 50K ๊ฐ ์ ๋์ multi-turn ๋ํ ๋ฐ์ดํฐ๊ฐ ๋จ๊ฒ ๋์๋ค.
- HC3: English Human-ChatGPT Comparison Corpus์ ChatGPT ์๋ต์ ์ฌ์ฉํ์๋ค. ์ด๊ฒ์ ~24K ๊ฐ์ question์ ๋ํ ~27K ๊ฐ์ ChatGPT ์๋ต์ ํฌํจํ๊ณ ์๋ค.
- Discord ChatGPT Bots: r/ChatGPT์ Turing AI Discord server๋ก๋ถํฐ ์์ง๋ 10K ๊ฐ์ input-output example์ ์ฌ์ฉํ์๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ํด์ ์ป์ด์ง ๋ฐ์ดํฐ์ ์ ShareGPT-Mix๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๊ทธ๋ฆฌ๊ณ ShareGPT-Mix๋ ์ผ๋ฐ์ ์ผ๋ก high-quality์๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๋งค์ฐ ๋ค์ํ instruction์ ๊ฐ์ง๊ณ ์๋๋ฐ, ์ด๋ ๋ค๋ฅธ ์ฌ์ฉ์ ์ฟผ๋ฆฌ์ ๊ฐ์ฅ ์ ์ฌํ ์ฟผ๋ฆฌ๊ฐ 8%์ BLEU ์ ์ฌ๋๋ฅผ ๋ณด์ฌ์ค ์ ๋์ด๋ค. ๊ทธ๋ฆฌ๊ณ multi-lingual ๋ํ์ ์ฝ๋ฉ task๋ฅผ ํฌํจํ๋ ๋ค์ํ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ํฌํจํ๊ณ ์๋ค.
4. Main Results
๋ ผ๋ฌธ์์๋ imitation LM์ ShareGPT-Mix์ NQ-synthetic ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ ํ์ต์์ผฐ๊ณ , human & automatic ํ๊ฐ๋ฅผ ์ํํ์๋ค.
4-1. Training and Evaluation Setup
๋ ผ๋ฌธ์ ์คํ์์๋ imitation data์ ์์ ์ฆ๊ฐ์ํค๊ณ ๋ค์ํ base LM์ ๋ฅ๋ ฅ์ ๋ฐ๋ผ imitation model์ด ์ด๋ป๊ฒ ๊ฐ์ ๋๋์ง๋ฅผ ์ฐ๊ตฌํ์๋ค. ์ด๋ฅผ ์ํด ๋ชจ๋ธ์ GPT-2 1.5B, LLaMA 7B, LLaMA 13B๋ฅผ ์ฌ์ฉํ์๋ค. ๋ํ ์๋ก ๋ค๋ฅธ ์ฌ์ด์ฆ์ ๋ฐ์ดํฐ ์๋ธ์ ๊ณผ ํจ๊ป fine-tuning ํ ๋ ๋ฐ์ดํฐ ๊ท๋ชจ์ ํจ๊ณผ์ ๋ํด ์คํํ์๋ค.
automatic ํ๊ฐ๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ 5-shot MMLU, 3-shot Natural Questions, 0-shot HumanEval์์ ์ฑ๋ฅ์ ์ธก์ ํ์๋ค. human ํ๊ฐ์ ๊ฒฝ์ฐ์๋ blind ์ถ๋ ฅ์์ ๋น๊ต๋ฅผ ์ํํ์๋ค. ์ฌ๋์ ๋ ์๋ต ์ค ๋ฌด์์ ๋ ์ ํธํ๋์ง ๋๋ ๋ ์๋ต์ด ๋น์ทํ์ง๋ฅผ ํ๊ฐํ๋ค.
4-2. Qualitative Analysis and Crowdworker Evaluation Show Promise
imitation model์ crowdworker์๊ฒ ๋์ด ํ๊ฐ๋จ. ๋ ผ๋ฌธ์์๋ GPT-2 ๋๋ LLaMA๊ฐ instruction์ ๋ฐ๋ฅด๋ ๊ฒ์ ์คํจํ์๋๋ฐ imitation model์ task์ ๋จธ๋ฌด๋ ์ถ๋ ฅ์ ์์ฑํ๋ค. ์ด๋ ์ด๊ธฐ์ promise๋ฅผ ์ง์งํ๋ ๊ฒฐ๊ณผ์ด๋ค. imitation model ์ถ๋ ฅ ํ๋ฆฌํฐ๋ ChatGPT์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์๋ค. ํนํ, ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆผ์ ๋ฐ๋ผ ๊ทธ ํ๋ฆฌํฐ๋ ๋ ๋์์ก๋ค(๊ทธ๋ฆผ 1๊ณผ 3์ ์ค๋ฅธ์ชฝ). ํ์ง๋ง, human rating์ imitation data์ ์์ ๋๋ฆผ์ ๋ฐ๋ผ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค(๊ทธ๋ฆผ 1๊ณผ 3์ ์ผ์ชฝ). ์ด๋ ์ด ๋ฐฉ์์ ๋จ์ ์ ์์ํ๋ค.
4-3. Targeted Automatic Evaluation Expose Failure Modes
Broad-coverage imitation model์ ๋๋ถ๋ถ์ task์์ ๊ฐญ์ ์ขํ๋๋ฐ ์คํจํจ. ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ShareGPT-Mix imitation model์ base model๊ณผ ๋น๊ตํด์ ์ ํ๋ ์ธก๋ฉด์์ ๊ฐ์ ์ด ์์๋ค. ์ฌ์ง์ด imitation data๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ์ถ๊ฐํ์์๋ ๋ง์ด๋ค(๊ทธ๋ฆผ 4 ์์ชฝ). ์ด๊ฒ์ ChatGPT๋ฅผ broad-coverage imitation data์์ ๋ชจ๋ฐฉํ๋ ๊ฒ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ์ํค์ง ์์์ ๋ณด์ฌ์ค๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ํ๋ ์ด์ ๊ฐ ChatGPT๊ฐ LLaMA์ ๋น๊ตํด์ ์น์ผ๋ก๋ถํฐ ๋ ๋ง์ ์ง์ & ๋ฅ๋ ฅ์ ์บก์ฒํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ฃผ์ฅํ์๋ค. ์ ์ ์์ imitation data๋ก ์ด ๊ฐญ์ ์๋ ๊ฒ์ ๋นํฉ๋ฆฌ์ ์ด๋ค. ๋ ผ๋ฌธ์์๋ weaker base LM์ ์ฌ์ฉํด์ ChatGPT์ ์คํ๋ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด pre-training์ ๊ฐ๊น์ธ ์ ๋๋ก ๋งค์ฐ ํฌ๊ณ ๋ค์ํ imitation data๋ฅผ ์์งํ๊ธฐ ์ํ ๋ ธ๋ ฅ์ ํ์๋ก ํ๋ค.
Local imitation model์ ํ์ต์ํค๋ ๊ฒ์ด ๋์ฑ ์ฑ๊ณต์ ์. NLP-synthetic ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ ๋ก์ปฌ์ ์ผ๋ก ChatGPT๋ฅผ ๋ชจ๋ฐฉํ์ฌ ํ์ต๋ ๋ชจ๋ธ์ ๋์ฑ ์ฑ๊ณต์ ์ด๋ค. ํนํ LLaMA base model๊ณผ ๋น๊ตํด์ imitation model์ ์ฑ๋ฅ์ ์๋นํ ๊ฐ์ ๋๊ณ (ํ 1), ChatGPT์ ์ ํ๋์ ๋น ๋ฅด๊ฒ ๊ทผ์ ํ๋ค. ์ด๊ฒ์ ChatGPT๋ก๋ถํฐ ๊ตฌ์ฒด์ ํน์ฑ์ distill ํ๋ ๊ฒ์ด ๋์ฑ ์คํ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์ค๋ช ํ๋ค.
์๋ก ๋ค๋ฅธ ํ๊ฐ ๋ฐ์ดํฐ์ ๊ฐ์ ์คํ์ trade-off๊ฐ ์กด์ฌํจ. ์ ๋ ๋ง์ ShareGPT-Mix์์ ํ์ต์ ํ๋ฉด ์ฑ๋ฅ์ ํด๋ก์ธ๊น? ์ด๋ฌํ ์ฑ๋ฅ ์ฐจ์ด๋ ๋ถํฌ ์ด๋ & ๋ํ ํ์ fine-tuning๊ณผ downstreak ๋ฒค์น๋งํฌ ๊ฐ์ ์ฐจ์ด ๋๋ฌธ์ ์ฑ๋ฅ ๊ฐ์๊ฐ ๋ฐ์ํ๋ค. ์ฑ๋ฅ ๊ฐ์๊ฐ ์ ๊ทํ ๋๋ fine-tuning ์ค์ pre-training ๋ฐ์ดํฐ๋ฅผ ์์์ผ๋ก์จ ์ํ๋ ์ ์๋์ง๋ open problem์ด๋ค.
base LM์ ๊ฐ์ ์ํค๋ ๊ฒ์ด ์ต๊ณ ์ ํด๊ฒฐ์ฑ . ๋ชจ๋ฐฉ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ๋ ๊ฒ๋ณด๋ค ๋ ๋์ base LM์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋นํ ์ ํ๋ ๊ฐ์ ์ ์ด๋๋ค. ํ์ง๋ง ์ฌ๊ธฐ์๋ ์์ง๋ open-source LM๊ณผ closed-source LM ๊ฐ์ imitation data์ ๊ฐ์ผ fine-tuning์ผ๋ก๋ ์ขํ์ง๊ธฐ ํ๋ ๋ฅ๋ ฅ ๊ฐญ์ด ์กด์ฌํ๋ค. open-source LM์ ๊ฐ์ ํ๊ธฐ ์ํ ์ต๊ณ ์ ๋ฐฉ๋ฒ์ ๋ ๋์ base LM์ ๊ฐ๋ฐํ๊ธฐ ์ํ ์ด๋ ค์ด ๋ฌธ์ ์ ๋์ ํ๋ ๊ฒ์ด๋ค.
4-4. Imitation Models Learn Style, Not Control
๋ ผ๋ฌธ์์๋ ์ imitation model์ด crowdworker ํ๊ฐ์์๋ ๊ฝค ๊ฐ๋ ฅํ์ง๋ง, NLP ๋ฒค์น๋งํฌ์์๋ base LM๋ณด๋ค ๋ฐ์ด๋์ง ๋ชปํ ์ง์ ๋ํด์ ์กฐ์ฌํ์๋ค. ๋ ผ๋ฌธ์์๋ imitation model์ด ChatGPT์ ์คํ์ผ์ ๋ชจ๋ฐฉํ๋๋ฐ ๋ฅ์ํ๊ธฐ ๋๋ฌธ์ด๋ผ๋ ๊ฒ์ ์์๋๋ค. ํนํ ํ 2์์๋ imitation model๊ณผ ChatGPT๊ฐ ์ ์ฌํ ์ถ๋ ฅ์ ๋ด๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
ํ์ง๋ง ์ด์ automatic ํ๊ฐ์์ ๋ดค๋ ๊ฒ์ฒ๋ผ imitation model์ ์ฝํ ์ฌ์ค์ฑ์ ๊ฐ์ง๋ค. imitation model์ ์๋ต์ ๊ทธ๋ด๋ฏํด ๋ณด์ด์ง๋ง ChatGPT๋ณด๋ค ์ ๊ฒ ์ฌ์ค์ ๊ธฐ๋ฐ์ ๋๋ค. ์ด๊ฒ์ด ๊ทธ๋ฆผ 2์ ๋ํ๋ ์๋ค. ์ฌ๊ธฐ์ imitation model์ ChatGPT์ ์๋ต๊ณผ ์ ์ฌํ ์๋ต์ ์ถ๋ ฅํ์ง๋ง ์๋ฒฝํ ํ๋ ธ๋ค!
Human ํ๊ฐ๋ ์ ์ ๋ ์ด๋ ค์์ง. ๋๋ฉ์ธ ์ ๋ฌธ ์ง์์ด ์๊ฑฐ๋ ์๋นํ ์๊ฐ ํฌ์๊ฐ ์๋ crowd worker๋ ์คํ์ผ์ ์์์ ์ํด ํ๊ฐ๋ ์ ์๋ค. human ํ๊ฐ์ ๊ฐ์ ์ ์ํด ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ๋ฅผ ์ฐธ์ฌ์ํฌ ๋ฟ๋ง ์๋๋ผ ๋งค์ฐ ์ด๋ ค์ด prompt set๋ curate ํ๋ ๊ฒ์ด ํ์์ ์ด๋ค. ๋๋๊ฒ๋ human ํ๊ฐ ๊ฒฐ๊ณผ์ GPT-4 ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ๋๊ฐ์ ์ถ์ธ๋ฅผ ๋ณด์ฌ์ค๋ค. ์ด๋ GPT-4๊ฐ human ํ๊ฐ๋ฅผ ๊ฐ์ธ๊ฒ ๋์ฒดํ ํ๋ณด์๊ฐ ๋ ์ ์์์ ์ ์ํ๋ค.
Imitation model์ teacher model์ safety & toxicity๋ฅผ ๋ฌผ๋ ค๋ฐ์. imitation์ ChatGPT์ ์ข์ ์ ๋ค๋ง ๋ฌผ๋ ค๋ฐ๋ ๊ฒ ์๋๋ผ harmless ํ ํน์ฑ๋ ์์๋ฐ๊ฒ ๋๋ค. ๊ทธ๋ฆผ 5์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๋ ๋ง์ imitation data์์์ fine-tuning์ RealToxicityPrompt์์ ๋ ๋ฎ์ toxicity๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ ๊ฐ๋ ฅํ base LM์ ๊ฐ์ง๊ณ ์๊ณ ๊ฐ๋น์ผ fine-tuning data์ ์ฃผ์์ ์ถ๊ฐํด์ผ ํ ํ์์ฑ์ ์์ ๊ธฐ ์ํ ๊ฒฝ์ฐ์ model imitation์ ๋งค์ฐ ํจ๊ณผ์ ์ด๋ผ๊ณ ๊ฒฐ๋ก ์ ์ง์๋ค.
5. Discussion
๊ฐ๋จํ ์ง์ ์ถ์ถ๊ธฐ์ฒ๋ผ fine-tuning. ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ ์์ํ ์์ fine-tuning์ LM์ ์ง์ ๋๋ ๋ฅ๋ ฅ์ ๊ฐ์ ์ ์ฃผ์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ pre-training์ด LM ๋ฅ๋ ฅ์ ์ฃผ๋ ์์ค์ด๊ณ , fine-tuning์ ์์ ์ ์ง์์ ์ถ๋ก ํ๊ธฐ ์ํด ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ๊ฐ๋ฒผ์ด ์ญํ ์ ํ๋ค๋ ์๊ฒฌ์ ๋์ํ๋ค. ์ด๊ฒ์ด ์์ ๋ฐ์ดํฐ์ ์์ ChatGPT๋ฅผ ๋ชจ๋ฐฉํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๊ฐ์ ์ํค๋ ๊ฒ์ด ๋ถ์ถฉ๋ถํ ์ด์ ์ด๋ค.
imitation์ ๋ํด ๊ฑฑ์ ํด์ผ ํ ๊น? model imitation์ ํจํ์ base LM๊ณผ ํ๊น LM ๊ฐ์ ํฐ ๊ฐญ์ด ์กด์ฌํ๋ค๋ฉด ์ ํ๋๋ค.
๋ ผ๋ฌธ์ ๋ฐ๊ฒฌ์ ๋ํ ์ ์ฌ์ ํผ๋. ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ ๊ฝค ์ง์ง๋ฅผ ๋ฐ๋ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง ๊ฒฐ๋ก ์ ๋ฐ๊ฟ ์ ์๋ ์ ์ฌ์ ์ผ๋ก ์จ๊ฒจ์ง ๋ช ๊ฐ์ ๊ต๋์ ๊ฐ์ง๊ณ ์๋ค. ์ฒซ ๋ฒ์งธ๋ก ChatGPT์ ์ฌ์ฉ๋๋ pre-training ๋ฐ์ดํฐ๋ฅผ ์์ง ๋ชปํ๋ ๊ฒ์ฒ๋ผ ๋ ผ๋ฌธ์์ ํ๊ฐํ ๋ช ๊ฐ์ task์ ๋ํด์ ChatGPT์์ ์ด๋ฏธ ํ์ต๋ ๊ฒ์ผ ์๋ ์๋ค. ๊ฒ๋ค๊ฐ imitation์ ์ํํ๊ธฐ ์ํด์ ๋ ผ๋ฌธ์์๋ ํ๊น ๋ชจ๋ธ์ output์์ supervised learning์ ์ํํ๋ค.
model imitation์ ๋ค๋ฅธ ํํ์ ๋ํ ์ํฅ. ์ต๊ทผ ์ฐ๊ตฌ๋ค์์ ๋๊ท๋ชจ LM์ ๋ฐ์ดํฐ ์ฃผ์๊ณผ ์์ฑ ํ๋ก์ธ์ค ์ค์ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค.
model imitation์ ๊ธฐ์ ์ ์ ์ฝ. ์์ ์ฉ LM์ ๋ชจ๋ฐฉํ๋ ๊ฒ์ ์ฌ๋ฌ ๊ธฐ์ ์ ์ ์ฝ์ ๊ฐ์ง๋ค: imitation model์ ์์ ์ฉ LM์ ์ฝ์ ๊ณผ bias๋ฅผ ์์๋ฐ๊ณ , ๋ชจ๋ฐฉ์ closed AI์ ๋์์ธ ๊ฒฐ์ ์ ์ง์ ์ ์ธ ๊ฐ์ ์ ํ๋ฝํด์ฃผ์ง๋ ์๋๋ค. ๊ฒ๋ค๊ฐ imitation model์ ์ฌ์ฉํด์ ํน์ ๊ณผํ์ ์ง๋ฌธ์ ๋๋ตํ๋ ๊ฒ์ ์ด๋ ค์ด๋ฐ ์๋ํ๋ฉด ์ด๋ค์ ํ์ต ํ์ดํ๋ผ์ธ์ ์์ ์ ๋ธ๋๋ฐ์ค ๋ชจ๋ธ์ ํฌํจํ๊ธฐ ๋๋ฌธ์ด๋ค.
6. Conclusion
์ด ๋ ผ๋ฌธ์์๋ model imitation์ ํจํ์ ๋ํด์ ๋ถ์ํ์๋ค. imitation์ open-source LM์ ์คํ์ผ, persona, instruction์ ์ค์๋ฅผ ๊ฐ์ ์ํฌ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง imitation์ ์ฌ์ค์ฑ, ์ฝ๋ฉ, safeguard, ๋ฌธ์ ํด๊ฒฐ ๊ฐ์ ๋์ฑ ์ด๋ ค์ด ๋ฌธ์ ์ ๋ํด์๋ LM์ ๊ฐ์ ์ํค์ง ๋ชปํ๋ค. ํํธ์ผ๋ก ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๊ธฐ์ ์ด ๊ฐ๋ ฅํ base model์ pre-train ํจ์ผ๋ก์จ ๊ฒฝ์ ์ฐ์๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํ๋ฆฝํ๊ณ ๋ณดํธํ ์ ์์์ ๋ํ๋ธ๋ค. ๋ฐ๋๋ก ์ด๊ฒ์ 2๊ฐ์ ๊ทธ๋ฃน์ด ๋๊ฐ์ด ์ ๋ฅํ LM์ ์์ ํ๊ณ ์์ผ๋ฉด ๊ฐ๋น์ผ fine-tuning data ์ฃผ์์ ๋ฌ ํ์ ์์ด ํ๋๋ ๋ค๋ฅธ ํ๋์ persona์ ํน์ฑ์ ์์ฝ๊ฒ ๋ชจ๋ฐฉํ ์ ์์์ ์์ํ๋ค.
๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ ๊ธฐ์ ์ ๋ฐ ์ฌํ์ question์ ์ผ์ผํจ๋ค. ์ฒซ ๋ฒ์งธ๋ก ๊ธฐ์กด์ crowd worker ํ๊ฐ๋ imitation model๊ณผ ์์ ์ฉ ๋ชจ๋ธ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ด๋์ด๋ด๋๋ฐ ์ด๋ ค์์ ๊ฐ์ง๋ค. ํฅํ์ human ํ๊ฐ๋ ์์ง ๋ถํฌ๋ช ํ๊ฒ ๋จ์์๋ค: ์ด๋ป๊ฒ ๋น ๋ฅด๊ณ ์ธ๊ฒ ๊ฐ๋ ฅํ LLM์ ๊ธฐ๋ฅ์ ์กฐ์ฌํ ์ ์์๊น?
๋ ๋ฒ์งธ๋ก, LLaMA์ ChatGPT ๊ฐ์ ํฐ ๊ฐญ์ด ์ฃผ์ด์ง๊ณ model imitation์ ๋ถ์ถฉ๋ถํจ์ด ์ฃผ์ด์ก์ ๋ ์ด๋ป๊ฒ open-source LM์ ์ต์ ์ผ๋ก ๊ฐ์ ์ํฌ ์ ์๋์ง์ ๋ํ ๋ช ๋ฐฑํ open question์ด ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2305.15717