The overview of this paper
์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ smaller model์ ์ญ๋์ ํฅ์์ํค๊ธฐ ์ํด imitation learning์ ํตํด large foundation models(LFM)์ ์ํด ์์ฑ๋ output๊ณผ ํจ๊ป ํฅ์์ํค๊ณ ์ ํ์๋ค. ํ์ง๋ง ์ฌ๊ธฐ์๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฌธ์ ์ ๋ค์ด ์กด์ฌํ๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Orca๋ฅผ ์๊ฐํ์๋ค. Orca๋ LFM์ ์ถ๋ก ํ๋ก์ธ์ค๋ฅผ ๋ชจ๋ฐฉํ๊ธฐ ์ํด ํ์ตํ๋ 13B ๋ชจ๋ธ์ด๋ค.
Orca๋ explanation trace(step-by-step process)๋ฅผ ํฌํจํ๋ GPT-4 ๋ก๋ถํฐ ํ๋ถํ ์๊ทธ๋์ ํ์ตํ๊ณ , ChatGPT teacher assistant์ ์ํด ์ง๋๋๋ ๋ค๋ฅธ ๋ณต์กํ instruction์์ ํ์ต๋์๋ค. ์ด๋ฌํ progressive learning process๋ฅผ ์ด์งํ๊ธฐ ์ํด ์ ์คํ ์ํ๋ง๊ณผ ์ ํ๊ณผ ํจ๊ป ๋๊ท๋ชจ & ๋ค์ํ imitation data๋ฅผ ํ์ฉํ์๋ค. ์ด๋ ๊ฒ ํ์ต๋ Orca๋ ๊ธฐ์กด์ SoTA ๋ชจ๋ธ์ ์ฐ์ด ๋๋ฅด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค! ๐ซข
Table of Contents
1. Introduction
2. Explanation Tuning
3. Experiment Setup
4. Evaluation for Open-ended Generation
5. Evaluation for Reasoning
6. Limitations
1. Introduction
๋ชจ๋ธ ์์ ์ ์ฌ์ฉํด์ ๋ค๋ฅธ AI ๋ชจ๋ธ์ ํน์ฑ์ supervise ํ ์ ์์๊น? ์ด์ ์ฐ๊ตฌ์์๋ ์ด๊ธฐ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์ํ๋งํ๊ณ ์์ ๋ณธ์ ์์ฑํ ๋ค์ ์ด๋ฌํ ์์ ๋ ์๋ต์ ๊ธฐ๋ฐ์ผ๋ก ์๋ ๋ชจ๋ธ์ fine-tune ํจ์ผ๋ก์จ ๋ชจ๋ธ ๋์์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ ์ ์๊ณ ์ฌ๋์ ๋ผ๋ฒจ์ ํจ์ฌ ์ ๊ฒ ์ฌ์ฉํ์ฌ ๋ณด๋ค harmless ํ๊ฒ ๋ง๋ค ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
์ต๊ทผ์ ChatGPT์ GPT-4 ๊ฐ์ LFM์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ธฐ ์ํ teacher๋ก ์ฌ์ฉํ๋ ค๋ ์ฐ๊ตฌ์ ๋ํ ์ ์ ์ด ๋์๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง ๋ชจ๋ธ๋ค์ teacher ๋ชจ๋ธ์ ์คํ์ผ์ ๋ฐ๋ผ๊ฐ ์ ์์ง๋ง, ์ด๋ฌํ ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ถ๋ก ๊ณผ ์์ฝ์์ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
์ด๋ ๊ฒ LFM์ teacher model๋ก ์ฌ์ฉํด์ ํ์ต๋ 13B instruction-tuned model์๋ Vicuna๊ฐ ์๋๋ฐ, Vicuna๋ OpenLLM & ChatArena ๋ฆฌ๋๋ณด๋์์์ ์ฑ๋ฅ์ ์ํด ์ต๊ณ ์ ๋ชจ๋ธ ์ค ํ๋๋ก ๊ฐ์ฃผ๋๊ณ ์๋ค.
๊ทธ๋ฆผ 1์์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ, GPT-4๋ฅผ ์ฌ์ฉํ๋ ํ๊ฐ method์์ Vicuna๋ ChatGPT์ 92% ์ ๋์ ํด๋นํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๐ฒ ๊ทธ๋ฌ๋ human label์ ๋ํ ์ถ๋ก ๋ฒค์น๋งํฌ์ ๋ํ ๋ณด๋ค ์ธ์ฌํ ํ๊ฐ๋ Vicuna๊ฐ ์ ๋ฌธ ๋ฐ ํ์ ์ํ์์ ChatGPT ํ์ง์ 64%๋ง ์ ์งํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค(๊ทธ๋ฆผ 2). ๐ ๊ทธ๋ฆฌ๊ณ BigBench-Hard ๊ฐ์ ๋ณต์กํ ๋ฒค์น๋งํฌ์์ ์ค์ง ChatGPT ํ์ง์ 48%๋ง ์ ์งํ์๋ค(๊ทธ๋ฆผ 3). ๐ ์ด๋ฌํ ํ๊ฐ์ ๋ถ์ผ์น๋ smaller model์ ๋ํด ํ๊ฐํ๋ ๊ธฐ์กด ํ๊ฐ ํ๋กํ ์ฝ์ ํ๊ณ์ ์ ๋ณด์ฌ์ค ๋ฟ๋ง ์๋๋ผ, ์ด๋ค์ ์ถ๋ก ๋ฐ ์ดํด ๋ฅ๋ ฅ์์ ์๋นํ ๋ถ์กฑ์ ๋ฐํ๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ์ ๋ํด ๋ ผ์ํ๊ณ , ์ด ๊ฐญ์ ์ค์ด๊ณ ์ ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํด๊ฒฐํ ์ ๋ต๋ ์ ์ํ์๋ค.
1-1. Challenges with Existing Methods
๊ธฐ์กด์ LFM์ output์ ํ๋ด๋ด๊ธฐ ์ํ instruction-tuning์ ๋ํ ์ฐ๊ตฌ๋ task ๋ค์์ฑ, ์ฟผ๋ฆฌ ๋ณต์ก์ฑ, ๋ฐ์ดํฐ scaling์์ ํ๊ณ์ ์ ๊ฐ์ง๊ณ ์์๋ค. ์ด๋ฌํ ํ๊ณ์ ์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
- Simple instructions with limited diversity: Self-Instruction์ผ๋ก ์์ฑ๋ ์ฟผ๋ฆฌ๋ ๋ค์์ฑ๊ณผ ๋ณต์ก๋์์ ํ๊ณ์ ์ ๊ฐ์ง๋ค. ๊ทธ๋์ Self-Instruction์ ๊ฐ์ ์ํค๊ณ ์ ํ WizardLM์ Evol-Instructi์ Vicuna & Koala์ ๋์ฑ ์ฌ๋ ๊ฐ์ ๋ํ์ ShareGPT์ด ์์ฐ์ค๋ฌ์ด instruction๋ ์๋ค.
- Task diversity and data scaling: ShareGPT์ ๋ฐ์ดํฐ๋ ์ฐฝ์์ ์ปจํ ์ธ ์์ฑ๊ณผ ์ ๋ณด ๊ฒ์ ์ฟผ๋ฆฌ์ ๊ฐ์ task๊ฐ ๋ค๋ฅธ task๋ณด๋ค ๋ง๋ค. ์ด๋ฌํ ์์ฐ์ค๋ฌ์ด ๋ํ ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ชจ๋ธ์ LFM์ ์คํ์ผ์ ์บก์ฒํ์ง๋ง, ์ถ๋ก ํ๋ก์ธ์ค๋ ์บก์ฒํ์ง ๋ชปํ์๋ค. ๊ทธ๋ฆผ 2์ 3์์ Vicuna์ ์ฑ๋ฅ์ด ์ด๋ฅผ ์ค๋ช ํด ์ค๋ค. ํ 1์ ๋ฐ์ดํฐ์ ์ฌ์ด์ฆ์ tuning method์ ๊ฐ์๋ฅผ ๋ณด์ฌ์ค๋ค.
- Limited imitation signals: ๊ธฐ์กด method๋ teacher ๋ชจ๋ธ์ ์ํด ์์ฑ๋ <query, response> ์์ผ๋ก๋ถํฐ์ imitation learning์ ์์กดํ๋ค. ์ด๊ฒ์ teacher์ ์ถ๋ก ํ๋ก์ธ์ค ์ถ์ ์ ๋๋ฌด ์ ํ๋ ์ํฅ์ ์ฃผ๊ฒ ๋๋ค.
- Evaluation: ํ๊ฐ ํ๋กํ ์ฝ์ด ๋ถ์กฑํ๋ค. ๊ทธ๋๋ง ๋ง์ด ์ฌ์ฉ๋๊ณ ์ธ์ ๋๋ metric์ธ Vicuna Evaluation๋ ๋ฌธ์ ๊ฐ ๋ง๋ค. auto-evaluation์ LFM๊ณผ ๋น๊ตํด์ smaller model์ ๋ฅ๋ ฅ์ ๊ณผ๋ํ๊ฐํ๊ณ , ์ด์ ์ metric์ ์์ฝ ๋ฐ ์ถ๋ก ์คํฌ์ด ์ฝํ๋ค๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค.
1-2. Key Contributions
์ด ์ฐ๊ตฌ์ ๋ชฉํ๋ ์์ ์ธ๊ธํ challenge๋ค์ ํด๊ฒฐํ๋ ๊ฒ์ด๋ค:
- Explanation Tuning: <query, response> ์์ teacher์ ์ถ๋ก ํ๋ก์ธ์ค๋ฅผ ์ค๋ช ํ๋ GPT-4๋ก๋ถํฐ ๋ํ ์ผํ response์ ํจ๊ป augment ํ์๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ LFM์ ์๊ฐ ํ๋ก์ธ์ค๋ฅผ ๋ชจ๋ฐฉํ ๊ธฐํ๋ฅผ ์คฌ๋ค๊ณ ํ ์ ์๋ค.
- Scaling tasks and instructions: Flan 2022 ๋ชจ์๊ณผ FLAN-v2๋ฅผ ํ์ฉํด์ ๋์ฑ ํ๋ถํ๊ณ ๋ค์ํ training set๋ฅผ ๋ง๋ค์๋ค. ์ด ๋ฐ์ดํฐ์ ์ instruction ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ ๋ณต์กํ prompt๋ฅผ ๋ง๋ค๊ณ , ์ด prompt๋ LFM์๊ฒ ์ฟผ๋ฆฌํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋์ฑ ํ๋ถํ๊ณ ๋ค์ํ training set๊ฐ ๋ง๋ค์ด์ง๋ค.
- Evaluation: ๋
ผ๋ฌธ์์๋ Orca์ ์์ฑ, ์ถ๋ก , ์์ฝ ๋ฅ๋ ฅ์ ์ฌ๋ฌ ์ธํ
์์ ํ๊ฐํ์๋ค. ChatGPT, GPT-4, Vicuna ๊ฐ์ LFM๊ณผ Orca์ ์์ฑ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ๋น๊ต๋ฅผ ์ํด case-study๋ฅผ ์งํํ์๋ค.
- AutoEvaluation w/ GPT-4 - Vicuna, Awesome, WizardLM์ prompt ๋ชจ์์ ํ๊ฐ ์ธํธ์์
- Academic benchmark: Big-Bench Hard, TruthfulQA
- Professional & Academin benchmark: SAT, LAST, GRE, GMAT from AGIEval
- Safety Evaluation
2. Explanation Tuning
๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌธ์ ์ ํด๊ฒฐ์ ์ํด ๋ณต์กํ instruction & ํ๋ถํ signal๊ณผ ํจ๊ป augment๋ ๋ค์ํ task๋ฅผ ์ฌ์ฉํ์ฌ ๋๊ท๋ชจ training data๋ฅผ ํ์ฉํ์๋ค.
2-1. Dataset Construction
๋ ผ๋ฌธ์ training data๋ ๋ค์์ 3๊ฐ์ instance๋ก ์ด๋ฃจ์ด์ ธ ์๋ค: <System message, User query, LFM response>. ๊ฐ๊ฐ์ด ์๋ฏธํ๋ ๋ฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- System Meassage: ํ์์ ์ธ context, ๊ฐ์ด๋๋ผ์ธ, ๋ค๋ฅธ ์ ์ ํ ๋ํ ์ผ์ ์ ๊ณตํด์ค
- User Query: LFM์ด ์ํํ๊ธฐ ์ํ๋ ์ค์ task๋ฅผ ์ ์ํจ
- LFM Response: FLAN-v2์ 5M ๊ฐ์ user query๋ ChatGPT์ ์๋ต์ ํ์ฉํ๊ณ , ๊ทธ์ค 1M ๊ฐ๋ GPT-4์ ์๋ต์ ์์งํ์์
System Messages. 16๊ฐ์ system message๋ฅผ ๋ง๋ค์ด์ LFM์ผ๋ก๋ถํฐ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ์๋ต์ ๋ถ๋ฌ์ผ์ผํค๊ณ ์ ํ์๋ค. ์ด๋ฌํ system meessage๋ Orca๊ฐ ๋ค์๊ณผ ๊ฐ์ output์ ๋ด๋์ ์ ์๊ฒ ๋ง๋ค์ด์คฌ๋ค:
- long & short answers
- guideline, instruction, fomat ์ค์
- ์ ๋ณด ๊ฒ์ ์ฟผ๋ฆฌ๋ฟ๋ง ์๋๋ผ ์ฐฝ์์ ์ฝํ ์ธ ๋ ์์ฑ
- ์ค๋ช ์์ฑ & step-by-step ์ถ๋ก ์์ฑ
๋ ผ๋ฌธ์์๋ FLAN-v2 ๋ชจ์์ ์๋ก ๋ค๋ฅธ subcollection์ ๋ํด ์๋ก ๋ค๋ฅธ system message๋ฅผ ๋ง๋ค์๋ค. ํ 2์ ์ด system message์ ์๊ฐ ๋ณด์ด๊ณ ์๋ค. ๊ทธ๋ฆผ 6์ system message์ ๋ถํฌ๋ฅผ ๋ณด์ฌ์ค๋ค.
Dataset Description and Sampling from the FLAN-v2 Collection. FLAN-v2๋ ์ด 5๊ฐ์ sub-collection์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค: CoT, NiV2, T0, Flan 2021, Dialogue. ๋ ผ๋ฌธ์์๋ Orca๋ฅผ ํ์ต์ํค๊ธฐ ์ํด ์ค์ง zero-shot query๋ง ์ํ๋งํ์๋ค.
ChatGPT as Teaching Assistant. ๋ ผ๋ฌธ์์๋ FLAN-5M์ผ๋ก ์ธ๊ธ๋๋ 5๋ฐฑ๋ง ๊ฐ์ instruction์ ์์ฑํ์๋ค. ์ถ๊ฐ์ ์ผ๋ก ์ด FLAN-5M์์ 1๋ฐฑ๋ง ๊ฐ์ ์ฟผ๋ฆฌ๋ฅผ ๋๋ค ํ๊ฒ ์ํ๋งํด์ FLAN-1M์ ๋ง๋ค์๋ค. ๊ทธ๋ฆฌ๊ณ FLAN-5M์ ๋ํด ChatGPT๋ฅผ ์ฌ์ฉํด์ ์๋ต์ ์์งํ๊ณ , FLAN-1M์ ๋ํ ์๋ต์ผ๋ก GPT-4๋ฅผ ํ์ฉํ์๋ค.
์ด๋ ๊ฒ ๋ง๋ค์ด์ง ๋ฐ์ดํฐ์ ์ ๋ํด Orca๋ฅผ ๋จผ์ FLAN-5M์์ ํ์ต์ํค๊ณ , ๋ค๋ฐ๋ผ์ FLAN-1M์์ ํ์ต์์ผฐ๋ค. ChatGPT๋ฅผ ์ค๊ฐ teacher๋ก ์ฌ์ฉํ๋ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค:
- Capacity Gap: ๋ ์ ์ ๋ฅ๋ ฅ ๊ฐญ์ ๊ฐ์ง๋ ์ค๊ฐ teacher๋ฅผ ํ์ฉํ๋ ๊ฒ์ KD์์ smaller student์ ๋ํ imitation learning ์ฑ๋ฅ์ ๊ฐ์ ์ํจ๋ค. ํ ๋ง๋๋ก progressive learning์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
- Cost & Time: OpenAI API๋ฅผ ์ฌ์ฉํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ง์ ์ ํ๋๋ค. ํนํ, GPT-4๋ ChatGPT๋ณด๋ค ๋ ๋ง์ ์๊ฐ์ ํ์๋ก ํ๋ค. ๊ทธ๋์ ChatGPT์์ 5๋ฐฐ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์๋ค.
๊ทธ๋ฆผ 5๋ ์๋ก ๋ค๋ฅธ system message์ ๋ํ ChatGPT์ GPT-4์ ์๋ต ๊ธธ์ด ๋ถํฌ๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด GPT-4๋ ChatGPT๋ณด๋ค 1.5๋ฐฐ ๋ ๊ธด ์๋ต์ ์์ฑํ๋ ๊ฒ์ ๊ด์ฐฐํ ์ ์๋ค. ์ด๋ฌํ ์ ์ progressive learning์ ๊ฐ๋ฅํ๊ฒ ํด ์ค๋ค!
2-2. Training
์ด ์น์ ์์๋ Orac์ ๋ํ ํ์ต ํ๋ก์ธ์ค์ ๊ฐ์๋ฅผ ์ ๊ณตํด ์ค๋ค.
- Tokenization: LLaMA์ Byte Pari Encoding(BPE)๋ฅผ ํ์ฉํจ
- Packing: training process ์ต์ ํ & ์ฌ์ฉ ๊ฐ๋ฅํ ์ปดํจํ ์์์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ํด packing ๊ธฐ์ ์ ์ฌ์ฉํจ. packing์ ์ฌ๋ฌ input example์ ํ๋์ ์ํ์ค๋ก ์ฐ๊ฒฐํ๋ ๊ฒ
- Loss: teacher์ ์ํด ์์ฑ๋ ํ ํฐ์์๋ง loss๋ฅผ ๊ณ์ฐํจ. ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ฐ๊ด๋๊ณ ์ ๋ณด๊ฐ ๋ง์ ํ ํฐ์ ์ง์คํ๋๋ก ๋ณด์ฅํด ์ค
3. Experiment setup
3-1. Baselines
Orca๋ฅผ text-davinci-003, ChatGPT, GPT-4, VIcuna์ ๋น๊ตํ์๋ค.
3-2. Tasks
๋ ผ๋ฌธ์์๋ open-ended generation๊ณผ ๋ณต์กํ ์ถ๋ก task๋ฅผ ์ถ๋ก ํ๊ณ ์ดํดํ๊ธฐ ์ํ ๋ฅ๋ ฅ์ ์ธก๋ฉด์์ Orca์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉํ์๋ค. ํ 4๋ ํ๊ฐ์ ์ฌ์ฉ๋ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ํต๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
Open-ended Generation Capabilities. Vicuna Evaluation๊ณผ ๋๊ฐ์ ์ ์ ์์ 3๊ฐ์ ์๋ก ๋ค๋ฅธ prompt ๋ชจ์(Vicuna, Awesome, WizardLM)์์ ์คํ์ ์งํํ์๋ค.
Reasoning Capabilities. ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํด ๋ค์์ 2๊ฐ์ง ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์๋ค.
- AGIEval: LM์ human ์ค์ฌ ์ํ์์ ํ๊ฐํจ(eg. GRE, GMAT, SAT etc.)
- BIg-Bench Hard(BBH): 23๊ฐ์ ์ด๋ ค์ด BIG-Bench tasks. LLM์ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ๊ณ ์๋์์. ์ด task๋ค์ ๋ชจ๋ ์ด์ LM๋ค์ด ํ๊ท human-rater๋ฅผ ๋ฅ๊ฐํ์ง ๋ชปํ๋ task๋ค๋ก ๊ตฌ์ฑ๋์ด ์์.
๋ํ Orca๋ ์ด๋ ํ ์์ ๋๋ CoT ์์ด zero-shot ์ธํ ์์ ์ถ๋ก ๋ฅ๋ ฅ์ด ํ๊ฐ๋์๋ค.
4. Evaluation for Open-ended Generation
ํ 5๋ ChatGPT์ GPT-4๋ฅผ ์ฐธ์กฐ ๋ชจ๋ธ๋ก ํด์ ํ๋ณด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ฌ๊ธฐ์ GPT-4๋ ํ๊ฐ์๋ก ์ฌ์ฉ๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Orca๋ ChatGPT ํ์ง์ 95% ์ ๋, GPT-4 ํ์ง์ 85% ์ ๋ ๋ฌ์ฑํจ. ๊ทธ๋ฆฌ๊ณ Vicuna์ ๋นํด 10% ์ ๋ ๊ฐ์ ๋จ.
- Vicuna Evaluation์์ ChatGPT์ ๋๋ฑํ ์ฑ๋ฅ์ ๊ฐ์ง.
- ๊ด๋ฒ์ํ ์์ฑ ์ญํ ์ ๊ฑธ์ณ์ prompt์ ๋ํด ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ํนํ Awesome prompt ๋ฐ์ดํฐ์ ์ ๋ํด
Replication Note: GPT-4 ํ๊ฐ๋ ์ฒซ ๋ฒ์งธ ์๋ต์ ๋ ๊ธ์ ์ ์ธ bias๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์๋ค.
5. Evaluation Reasoning
5-1. AGIEval Results
ํ 6์ Orca์ ๋ค๋ฅธ baseline ๋ชจ๋ธ ๊ฐ์ AGIEval ๋ฒค์น๋งํฌ์์ zero-shot ์ฑ๋ฅ ๋น๊ต๋ฅผ ์งํํ์๋ค. ํ๊ฐ ์ ์ ์ AGIEval๊ณผ ๋๊ฐ์๊ณ , accuracy metric์ ์ฌ์ฉํ์ฌ ์ธก์ ๋์๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Orca๋ Text-dacinci-003๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ChatGPT์ 86%๋ฅผ ๋ฌ์ฑํ์ง๋ง, GPT-4์ ๋นํด ์๋นํ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค.
- ์ํ ๊ด๋ จ task์์ Orca๋ text-davinci-003๊ณผ 5% ์ ๋์ ์ฐจ์ด๋ฅผ ๋ณด์ด๊ณ , ChatGPT์ ํฐ ๊ฐญ์ ๋ณด์ฌ์คฌ๋ค.
- Vicuna์ ๋น๊ตํด์ ๋์ฑ ๊ฐ๋ ฅํ ๋ชจ์ต์ ๋ณด์ฌ์ค.
- GPT-4๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, ๋ชจ๋ ์ฌ๋๋ณด๋ค๋ ํ์ ํ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์.
- system message์ ์ข ๋ฅ์ ๊ธฐ๋ฐํด Orca์ ์ฑ๋ฅ์ด ์๋นํ ๋ค์ํด์ง(ํ 7)
Scaling and Teacher Assitance. FLAN-1M์์๋ง ํ์ต๋ Orca์ FLAN-5M & FLAN-1M ์์ ํ์ต๋ Orca๋ฅผ ๋น๊ตํจ์ผ๋ก์จ progressive learning์ ํจ๊ณผ๋ฅผ ๋ถ์ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฑ๋ฅ์ด 4.5 ํฌ์ธํธ ๊ฐ์ ๋์๋ค. ๊ฒฐ๊ณผ๊ฐ ํ 8์ ๋ํ๋์๋ค.
100๊ฐ์ ๋๋ค ChatGPT-beats-Orca & Orac-beats-ChatGPT ์ํ์ ๋ถ์
- Domain Knowledge: Tesla์ ๋ฐฐํฐ๋ฆฌ ๋ฌธ์ ๊ฐ์ ์ ๋ฌธ์ ์ธ ๋๋ฉ์ธ์ ๋ํ ๋ฌธ์ ํด๊ฒฐ์ ์ ๋ฌธ์ ์ธ ์ง์์ ํ์๋ก ํ๊ธฐ์ ๋ ๋ค ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- Complex Reasoning: ๋ณต์กํ ์ถ๋ก ์ ๋ํด์ ๋ ๋ค ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
- Long Context: ChatGPT๋ Orca๋ณด๋ค long context๋ฅผ ๋ชจ๋ธ๋งํ๋๋ฐ ๋ ์ฐ์ํ๋ค.
- Geometric Reasoning: ๊ธฐํํ์ ์ถ๋ก ์ ๋ํด ๊ฐ๊ฐ์ ์ด์ง์ฉ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๊ฒ์ ๋ ๋ชจ๋ธ ๊ฐ์ ๊ธฐํํ์ ์ถ๋ก ์ฑ๋ฅ ๊ฐญ์ ๊ฐ๋ฆฌํจ๋ค.
- LaTeX Reasoning: LaTeX ์ ํ์ ์ถ๋ก ์์ ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
5-2. Big-Bench Hard Results
ํ 9๋ ํ์ค zero-shot prompting๊ณผ ํจ๊ป Big-Bench Hard์์ Orca์ baseline ๋ชจ๋ธ์ zero-shot ์ฑ๋ฅ ๋น๊ต ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. Orca๋ ๋ชจ๋ task์ ์ข ํฉ์์ ChatGPT๋ณด๋ค ๋ฏธ๋ฏธํ๊ฒ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , GPT-4 ๋ณด๋ค๋ ์๋นํ ๋จ์ด์ง๊ณ , Vicuna๋ฅผ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
์ด๋ฌํ ์ฑ๋ฅ๊ณผ ๋ฌ๋ฆฌ Orca๋ GPT-4๋ณด๋ค ์๋นํ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ด๋ ๋ค๋ฅธ ์ฐ๊ตฌ์์ ๋ฐํ์ก๋ ๋ฏ์ด GPT-4๊ฐ Big-Bench์์ data contamination ๋ฌธ์ ๋ฅผ ๊ฒช๊ธฐ ๋๋ฌธ์ด๋ค.
Orca์ ChatGPT๋ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋๋ฐ, Orca์ ChatGPT ๊ฐ์ ์ฑ๋ฅ ์ฐจ์ด์ ๋ํด์ ๋ ์์ธํ ๋ค์ฌ๋ค๋ดค๋ค:
- Entailment & Semantic Understanding: Orca๋ entailment(Formal Fallacies)์ ๊ตฌ๋ฌธ ์ดํด(Disambiguation QA & Snarks)๋ฅผ ๋ ์ํ๋ค.
- Temporal & Spatial Reasoning: Orca๋ ์๊ฐ(Temporal rSequences), ๊ณต๊ฐ์ (Navigate), ์๊น ๊ธฐ๋ฐ(Colored Objects) ์ถ๋ก ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- Casual Judgement: casual judgement task์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. Orca๋ ChatGPT๋ณด๋ค 4.7% ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ์ด๋ GPT-4์ ๋๋ฑํ ์ฑ๋ฅ์ด๋ค!
- Multilingual Understanding: Salient Translation Error Detection์์ Orca์ ChatGPT๋ ์์ ์ด๋ฃจ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
- World Knowledge: world knowledge๋ฅผ ํ์๋ก ํ๋ task(Sports Understanding, Ruin Names)์์ Orca๋ ChatGPT ๋ณด๋ค ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ผ๋, ์ํ ์ถ์ฒ์์๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ Orca๊ฐ ChatGPT์ ๋นํด ์ถฉ๋ถํ ์ง์์ด ์์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณธ๋ค.
- Logical & Geometric Reasoning: ChatGPT๋ Orca์ ๋น๊ตํด์ ์ฐ์ํ ๋ ผ๋ฆฌ์ ์ถ๋ก ์ ๋ณด์ฌ์ค๋ค.
- Table Understanding: ChatGPT๋ Orca์ ๋น๊ตํด์ ๋ ๋์ ํ ์ดํด & ์ถ๋ก ๋ฅ๋ ฅ(Penguins in a Table)์ ๊ฐ์ง๋ค.
6. Limitations
Orca๋ LLaMA model์ ๊ธฐ๋ฐํด์ ๋ง๋ค์ด์ก๊ธฐ ๋๋ฌธ์, ์ด๋ค์ ๋ง์ ์ ์ฝ์ ๊ฐ์ง๊ณ ์์ ๋ฟ๋ง ์๋๋ผ, ๋ค๋ฅธ LLM์ ์ผ๋ฐ์ ์ธ ์ ์ฝ๋ ํฌํจํ๊ณ ์๋ค.
- Data Biases: ์์ค ๋ฐ์ดํฐ์ bias๋ฅผ ๋ฌด์ฌ์ฝ ๊ฐ์ง๊ณ ์ฌ ์๋ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ์ ์ ์ฌ์ ์ผ๋ก ํธํฅ๋๊ฑฐ๋ ๊ณตํํ์ง ์์ output์ ์์ฑํด ๋ผ ์๋ ์๋ค.
- Lack of Contextual Understanding: ํ์ ๋ real-world understanding์ ๋ณด์ฌ์ฃผ๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ถ์ ํํ๊ฑฐ๋ ํฐ๋ฌด๋์๋ ์๋ต์ ๋ด๋๊ธฐ๋ ํ๋ค.
- Lack of Transparency: ์์ฆ ๋ชจ๋ธ๋ค์ black box์ ์ฑํฅ์ ๋ง์ด ๊ฐ์ง๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ์์ธํ ๋ด์ฉ์ ๋ํด์ ์์๋ณด๊ธฐ๊ฐ ํ๋ค๋ค.
- Content Harms: LLM์ ๋ค์ํ ์ข ๋ฅ์ content harm์ ์ผ์ผํฌ ์ ์๊ธฐ ๋๋ฌธ์, ์ด์ ๋์ฒํ๋ ๋ฐฉ์์ด ์ค์ํ๋ค.
- Hallucination: smaller model์ ์์ ์ฌ์ด์ฆ์ ๊ฐ์๋ ๋ฉ๋ชจ๋ฆฌ ์์ฉ๋ ๋๋ฌธ์ hallucination์ ์ผ์ผํค๊ธฐ ๋ ์ฌ์์ก๋ค.
- Potential for Misuse: ์ ํฉํ safeguard ์์ด ๋ฌด๋ถ๋ณํ๊ฒ ์ฌ์ฉ๋๋ฉด ์๋ชป ์ฌ์ฉ๋ ๋ฆฌ์คํฌ๊ฐ ์กด์ฌํ๋ค.
์ถ๊ฐ์ ์ผ๋ก Orca์ ์ฑ๋ฅ์ explanation tuning์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ํด ์ํฅ์ ๋ฐ๋๋ค:
- Zero-Shot Settings: Orca๋ ํ์ค prompt์ ํจ๊ป zero-shot ์ธํ ์ ๊ตฌ๋ํ๋ ๋ฐ์ดํฐ์์๋ง ํ์ต๋์๋ค. ์์ง multi-turn ๋ํ, ICL, few-shot learning, CoT ๋ฑ์์๋ ํ ์คํธ๋์ง ์์๋ค.
- Data Distribution: Orca์ ์ฑ๋ฅ์ tuning data์ ๋ถํฌ์ ๊ฐํ๊ฒ ์๊ด๋์ด ์๋ค. ๋ฐ๋ผ์ training data์์ ๋ณ๋ก ํํ๋์ด ์์ง ์์ math, coding, reasoning ๊ฐ์ ๋ถ๋ถ์์ ์ฝํ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค.
- System messages: Orca๋ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ์๋ต์ ์ด๋์ด๋ด๊ธฐ ์ํด ๋ค์ํ system instruction์ ์ฌ์ฉํ์ฌ ํ์ต๋์๋ค.
- GPT-4 Behavior: Orca๊ฐ GPT-4๋ฅผ ๋ชจ๋ฐฉํ๊ธฐ ์ํด ํ์ต๋ ๊ฒ์ฒ๋ผ teacher model์ ์ฅ์ ๊ณผ ๋จ์ ์ ๋ชจ๋ ์์๋ฐ์์ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ Orca๊ฐ GPT-4 training ์ค์ ์ฌ์ฉ๋๋ safety ์ธก์ ๊ณผ safety guardrail๋ก๋ถํฐ ์ด์ ์ ์ป๋๋ค๋ ๊ฒ์ ๊ธฐ์ ์ฌ์คํ ํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2306.02707