The overview of 'Vicuna'
Vicuna 13B๋ ShareGPT๋ก๋ถํฐ ์์ง๋ user-shared ๋ํ์์ fine-tuned LLaMA์์ ํ์ต๋ open-source ์ฑ๋ด์ด๋ค. GPT-4๋ฅผ ํ๊ฐ์๋ก ์ฌ์ฉํ ์ฌ์ ํ๊ฐ๋ Vicuna-13B๊ฐ OpenAI ChatGPT์ Google Bard์ 90%์ ํด๋นํ๋ ํ๋ฆฌํฐ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ๋ฉด LLaMA์ Alpaca๋ณด๋ค 90%์ ๊ฒฝ์ฐ์ ๋ ๋์ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. Vicuna-13B์ ํ์ต ๋น์ฉ์ 300$ ์ ๋์ด๋ค. ๊ทธ๋ฆฌ๊ณ Vicuna์ ์ฝ๋์ ๊ฐ์ค์น๋ ๋น์์ ์ ์ฌ์ฉ์ ํํด์ ๊ณต๊ฐ๋์๋ค.
How Good Is Vicuna?
70K user-shared ChatGPT ๋ํ๋ฅผ ์ฌ์ฉํ์ฌ Vicuna๋ฅผ fine-tuning ํ ํ์, Vicuna๋ Alpaca์ ๋น๊ตํด์ ๋์ฑ ๋ํ ์ผํ๊ณ ์ ์ง์ธ ์๋ต์ ๋ง๋ค ์ ์์ด์ก๋ค.
ํ์ง๋ง ์ฑ๋ด์ ํ๊ฐํ๋ ๊ฒ์ ๊ฐ๋จํ task๊ฐ ์๋๋ค. ์ต๊ทผ์ GPT-4์ ๋ฐ์ ๊ณผ ํจ๊ป GPT-4์ ๋ฅ๋ ฅ์ด ๋ฒค์น๋งํฌ ์์ฑ๊ณผ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํ ๋ค๋ํ๋ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ human-like level์ ๋๋ฌํ ์ ์๋์ง ์๋์ง ๊ถ๊ธํ์๋ค. ์คํ์ ํตํด ๋ฐ๊ฒฌํ ์ ์ GPT-4๊ฐ ์ฑ๋ด ๋๋ต๊ณผ ๋น๊ตํ ๋ ๊ฝค ์ผ๊ด๋ ๋ญํฌ์ ๋ํ ์ผํ ํ๊ฐ๋ฅผ ์์ฑํ ์ ์๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค. GPT-4์ ํ๊ฐ์ ๊ธฐ๋ฐํด์ ์์ฝ๋ ๊ทธ๋ฆผ 1์์๋ Vicuna๊ฐ Bard/ChatGPT์ 90%์ ๋ฌํ๋ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด ์ ์๋ ํ๋ ์์ํฌ๋ ์ฑ๋ด ํ๊ฐ๋ฅผ ์๋ํํ๊ธฐ ์ํ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์์ง ์๋ฒฝํ ์ ๊ทผ๋ฒ์ ์๋๋ค. ์ฑ๋ด์ ์ํ ํ๊ฐ ์์คํ ์ ๋ง๋๋ ๊ฒ์ ์์ง open question์ด์ด์ ํฅํ ์ฐ๊ตฌ๋ฅผ ํ์๋ก ํ๋ค.
Overview
์ต๊ทผ์ LLM์ ์์ฒญ๋ ๋ฐ์ ์ ๊ฑฐ๋ญํ๋ฉฐ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ๋๋ถ๋ถ์ ๋ชจ๋ธ์ ํ์ต ๋ฐฉ๋ฒ๊ณผ ๊ตฌ์ฒด์ ์ธ architecture๊ฐ ๊ณต๊ฐ๋์ง ์์ ์ด ๋ถ์ผ์ ์ฐ๊ตฌ์ open-sourceํ๋ฅผ ๋ฐฉํดํ๊ณ ์๋ค. Meta์ LLaMA์ Stanford์ Alpaca ํ๋ก์ ํธ์ ์๊ฐ์ ๋ฐ์์ ๊ฐ์ ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๊ณ , ์ฝ๊ฒ ์ฌ์ฉ๊ฐ๋ฅํ๊ณ , scalable ํ infrastructure๋ฅผ ๊ฐ๋ open-source ์ฑ๋ด์ธ Vicuna-13B๋ฅผ ์๊ฐํ์๋ค. ShareGPT.com์ผ๋ก๋ถํฐ ์์ง๋ used-shared ๋ํ์์ LLaMA base model์ fine-tuning ํจ์ผ๋ก์จ Vicuna-13B๋ Stanford Alpaca์ ๊ฐ์ open-source ๋ชจ๋ธ๊ณผ ๋น๊ตํด์ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๊ฐ๊ฒ ๋์๋ค.
๊ทธ๋ฆผ 2๋ Vicuna๊ฐ ๋ง๋ค์ด์ง ๊ฐ์๋ฅผ ๋ณด์ฌ์ค๋ค. ์์์ ์์, ShareGPT.com์ผ๋ก๋ถํฐ 70K ๊ฐ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ์๋ค. ๊ทธ ๋ค์์ multi-round ๋ํ์ long sequence๋ฅผ ๋์ฑ ์ ๋ค๋ฃจ๊ธฐ ์ํด Alpaca์ ์ํด ์ ๊ณต๋๋ training script๋ฅผ ํฅ์์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ 80๊ฐ์ ๋ค์ํ question set๋ฅผ ์์ฑํ๊ณ model output์ ํ๊ฐํ๊ธฐ ์ํด GPT-4๋ฅผ ํ์ฉํจ์ผ๋ก์จ ๋ชจ๋ธ ํ๋ฆฌํฐ์ ํ๊ฐ๋ฅผ ์ํํ์๋ค. 2๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ๋น๊ตํ๊ธฐ ์ํด ๊ฐ ๋ชจ๋ธ์ output์ ๊ฐ question์ ๋ํ ํ๋์ prompt๋ก ๋ฌถ์๋ค. ๊ทธ๋ค์์ ์ด prompt๋ GPT-4์ ๋ณด๋ด์ ธ์ ์ด๋ค ๋ชจ๋ธ์ ์๋ต์ด ๋ ๋์์ง ํ๊ฐ๋๋ค. LLaMA, Alpaca, ChatGPT, Vicuna์ ๋ํ ๋ํ ์ผ์ด ํ 1์ ๋ํ๋ ์๋ค.
Training
Vicuna๋ public API์ ShareGPT.com์ผ๋ก๋ถํฐ ์์ง๋ ๊ฑฐ์ 70K ๊ฐ์ user-shared ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ LLaMA base model์ fine-tune ํจ์ผ๋ก์จ ์์ฑ๋์๋ค. ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด HTML์ ๋งํฌ๋ค์ด์ผ๋ก ๋ค์ ๋ณํํ๊ณ ๋ถ์ ์ ํ๊ฑฐ๋ low-quality ์ํ์ ํํฐ๋งํด๋ธ๋ค. ์ถ๊ฐ์ ์ผ๋ก ๊ธธ์ด๊ฐ ์๋ ๋ํ๋ฅผ ๋ชจ๋ธ์ ์ต๋ context length๋ฅผ ๋ง์กฑํ๋ smaller segment๋ก ๋๋ด๋ค.
Vicuna์ training recipe๋ Stanford Alapca์ ์์ ๋ค์์ ๊ฐ์ ์ ์ ์ถ๊ฐํ์๋ค.
- Memory Optimizations: Vicuna์ long context ์ดํด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด max context length๋ฅผ Alpaca์์ ์ฌ์ฉํ 512์์ 2048๋ก ๋๋ ธ๋ค. ์ด๊ฒ์ GPU์ ํ์๋ฅผ ์๋นํ ์ฆ๊ฐ์ํค๋๋ฐ ์ด๋ gradient checkpointing๊ณผ flash attention์ ์ฌ์ฉํจ์ผ๋ก์จ ํด๊ฒฐํ์๋ค.
- Multi-round Conversation: multi-round ๋ํ๋ฅผ ์ค๋ช ํ๊ณ ์ฑ๋ด์ output์์ fine-tuning์ loss๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด training loss๋ฅผ ์กฐ์ ํ์๋ค.
- Cost Reduction via Spot Instance: training์ ์ํ 40๋ฐฐ ๋ ํฐ ๋ฐ์ดํฐ์ ๊ณผ 4๋ฐฐ ๋ ๊ธด ์ํ์ค์ ๊ธธ์ด๋ ํ์ต ๋น์ฉ ์ธก๋ฉด์์ ์๋นํ ์ด๋ ค์์ ํ์ถํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ ์ทจ๊ถ์ ์ํ auto-recovery๋ฅผ ์ฌ์ฉํ๋ ๋์ฑ ์ผ spot instance์ aito zone switch๋ฅผ ํ์ฉํจ์ผ๋ก์จ cost๋ฅผ ์ค์ด๊ธฐ ์ํ SkyPilot managed spot์ ์ฌ์ฉํ์๋ค.
How To Evaluate a Chatbot?
AI ์ฑ๋ด์ ํ๊ฐํ๋ task๋ ์๋นํ ์ด๋ ค์ด๋ฐ, ์ธ์ด ์ดํด์ ์ถ๋ก , ๋ฌธ๋งฅ ์ดํด๋ฅผ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ด๋ค. AI ์ฑ๋ด์ด ๋์ฑ ๋ฐ์ ๋จ์ ๋ฐ๋ผ ํ์ฌ์ open ๋ฒค์น๋งํฌ๋ ๋ ์ด์ ์ถฉ๋ถํ์ง ์์ ์๋ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ฑ๋ด ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์๋ํํ๊ธฐ ์ํด GPT-4์ ๊ธฐ๋ฐ์ ๋ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์๋ค.
์ฒซ ๋ฒ์งธ๋ก ์ฑ๋ด ์ฑ๋ฅ์ ๋ค์ํ ์ธก๋ฉด์ ๋ฐ์คํธํ๊ธฐ ์ํ 8๊ฐ์ question ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ณ ์ํ์๋ค. ์ ์คํ prompt engineering์ ํตํด GPT-4๋ baseline model์ด ์ด๋ ค์์ ๊ฒช๋ ๋ค์ํ๊ณ ์ด๋ ค์ด question์ ์์ฑํ ์ ์์๋ค. ๊ฐ ์นดํ ๊ณ ๋ฆฌ ๋น 10๊ฐ์ question์ ์ ํํ๊ณ 5๊ฐ์ ์ฑ๋ด(LLaMA, Alapca, ChatGPT, Bard, Vicuna)์ผ๋ก๋ถํฐ ์๋ต์ ์์งํ์๋ค. ๊ทธ๋ค์์ GPT-4์๊ฒ ๋ฌผ์ด๋ด์ ์ด๋ค์ ์๋ต์ helpfulness, relevance, accuracy, detail์ ๊ธฐ๋ฐํด์ ํ๋ฆฌํฐ๋ฅผ ํ๊ฐํ์๋ค. GPT-4๋ ๋น๊ต์ ์ผ๊ด์ ์ธ score๋ฅผ ์ฐ์ถํ ๋ฟ๋ง ์๋๋ผ ์ ์ด๋ฐ score๊ฐ ์ฃผ์ด์ก๋์ง์ ๋ํ ๋ํ ์ผํ ์ค๋ช ๋ ์ ๊ณตํด ์ค๋ค. ํ์ง๋ง, GPT-4๋ ์ฝ๋ฉ/์ํ task๋ฅผ ํ๊ฐํ๋ ๋ฐ๋ ๋งค์ฐ ์ข์ง ์์๋ค.
๊ทธ๋ฆผ 3์ ๋ชจ๋ baseline๊ณผ Vicuna ๊ฐ์ ๋น๊ต ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. GPT-4๋ Vicuna๋ฅผ ๊ธฐ์กด SoTA open-source ๋ชจ๋ธ(LLaMA, Alapca)๋ณด๋ค 90% ์ด์์ question์์ ๋ ์ ํธํ์๊ณ , ์์ ์ฉ ๋ชจ๋ธ๊ณผ๋ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. GPT-4๋ ํ๋ฆฌํฐ score๋ฅผ ์ด 10์ ์ผ๋ก ํด์ ํ๊ฐํ๊ธฐ ๋๋ฌธ์, ๊ฐ ๋น๊ต ์(baseline, Vicuna)๋ฅผ 80๊ฐ์ question์์ ๊ฐ ๋ชจ๋ธ์ ์ํด ์ป์ด์ง score๋ฅผ ์ข ํฉํด์ total score๋ฅผ ๋น๊ตํ์๋ค. ํ 2์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ Vicuna์ total score๋ ChatGPT์ 92%์ด๋ค.
์ด ์ ์๋ ํ๊ฐ ํ๋ ์์ํฌ๋ ์ฑ๋ด์ ํ๊ฐํ๊ธฐ ์ํ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์์ง LLM์ด hallucinate๋ฅผ ์ผ์ผํค๋ ๊ฒ์ฒ๋ผ ์์ง ์๋ฒฝํ ๋ฐฉ๋ฒ์ ์๋๋ค. ์ณ๋ด์ ์ํ ์ข ํฉ์ ์ด๊ณ , ๊ธฐ์คํ ๋ ํ๊ฐ ์์คํ ์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๋ฅผ ํ์๋ก ํ๋ open question์ผ๋ก ๋จ์์๋ค.
Limitations
๋ค๋ฅธ LLM๊ณผ ์ ์ฌํ๊ฒ Vicuna๋ ํน์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ค. ์๋ฅผ ๋ค์ด ์ถ๋ก ๋๋ ์ํ task์ ๋ํด ๋ณ๋ก ์ข์ง ๋ชปํ๊ณ , ์์ ์ output์ ์ฌ์ค์ ์ ํ๋๋ฅผ ํ์งํ๋๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ง ์ถฉ๋ถํ๊ฒ safety๋ฅผ ๋ณด์ฅํ๊ฑฐ๋ ์ ์ฌ์ toxiciry ๋๋ bias๋ฅผ ์ํํ๋๋ก ์ต์ ํํ์ง ์์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ Vicuna๊ฐ ์ด๋ฌํ ํ๊ณ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํ ํฅํ ์ฐ๊ตฌ์ ์์์ ์ผ๋ก ์ฌ๊ฒจ์ง ๊ฒ์ด๋ผ๊ณ ์์ํ๋ค.
์ถ์ฒ
https://lmsys.org/blog/2023-03-30-vicuna/