AlpaGasus2-QLoRA!! ๐ฆ
์ด๋ฒ์ ์งํํ ํ๋ก์ ํธ 'AlpaGasus2-QLoRA'์ ๋ํด์ ์ค๋ช ํ๊ณ ์ ํ๋ค. ํ๋ก์ ํธ์ ๋ํด ์์๋ณด๊ธฐ ์ ์ ๋จผ์ ์ด ์ฐ๊ตฌ๋ฅผ ์งํํ ์ ์๋๋ก AlpaGasus๋ฅผ ์ ์ํด์ฃผ์ Lichang Chen ์ธ 10๋ถ๊ป ๊ฐ์ฌ์ ๋ง์์ ๋๋ฆฝ๋๋ค.
https://arxiv.org/abs/2307.08701
AlpaGasus: Training A Better Alpaca with Fewer Data
Large language models~(LLMs) obtain instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many low-quality instances w
arxiv.org
AlpaGasus2-QLoRA๋ ๋ง ๊ทธ๋๋ก ๊ธฐ์กด์ AlpaGasus ๋ชจ๋ธ์์ ๋ฒ ์ด์ค ๋ชจ๋ธ๊ณผ ํ๋ ๋ฐฉ์์ ์ด์ง ๋ณ๊ฒฝํ ๋ชจ๋ธ์ด๋ค. ๊ธฐ์กด์ AlpaGasus ๋ชจ๋ธ์ ๊ฐ๋ตํ๊ฒ ์ค๋ช ํ์๋ฉด ๋ค์๊ณผ ๊ฐ์ ํน์ง๋ค์ ๊ฐ์ง๋ค.
- base model: LLaMA1 (7B & 13B)
- fine-tuning method: full fine-tuning
- concept: ๊ธฐ์กด์ Alpaca Instruction ๋ฐ์ดํฐ์ ์์ ChatGPT(gpt-3.5-turbo)๋ฅผ ํ์ฉํ์ฌ ๋์ฑ ์ข์ ํ๋ฆฌํฐ์ ๋ฐ์ดํฐ๋ง์ ํํฐ๋งํ์ฌ ๊ทธ ๋ฐ์ดํฐ๋ก ํ์ต๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๊ธฐ์กด์ Alpaca๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ฐ์ดํฐ์ ์(quantity)๋ณด๋ค ํ๋ฆฌํฐ(quality)๊ฐ ๋์ฑ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค.
AlpaGasus2-QLoRA๋ ์ด๋ฌํ AlpaGasus์ ๋ชจํ ๋ฅผ ๋ฐ๋ฅด๋ฉด์ ๋ค์๊ณผ ๊ฐ์ ๋ณํ๋ฅผ ์ฃผ์๋ค.
- base model: LLaMA1 (7B & 13B) → LLaMA2 (7B & 13B)
- fine-tuning method: full fine-tuning → QLoRA
- concept: AlpaGasus์ ๋ชจํ ๋ฅผ ๊ทธ๋๋ก ๋ฐ๋ฆ. ์ด๋ฅผ ์ํด ํ์ต ๋ฐ์ดํฐ๋ก AlpaGasus์ ChatGPT filtered dataset์ ํ์ฉ.
์์ ๊ฐ์ ๋ณํ๋ฅผ ํตํด ๋์ฑ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋์ฑ ํจ์จ์ ์ผ๋ก ํ์ต์ํฌ ์ ์์๋ค! ์ค์ ๋ก ๋ชจ๋ธ์ ํ๋ํ๋๋ฐ Colab Pro์์ ์ ๊ณตํ๋ A100 40G GPU๋ฅผ ํ์ฉํด์ 3~5์๊ฐ ์ ๋ ๋ฐ์ ๊ฑธ๋ฆฌ์ง ์์๋ค. ๊ทธ ๊ฒฐ๊ณผ Alpaca2(LLaMA2 ๊ธฐ๋ฐ Alpaca ๋ชจ๋ธ)๊ณผ ๋น๊ตํ์ ๋ ์๋นํ ๊ฐ๋ ฅํ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
๋์ฑ ์์ธํ ๋ด์ฉ์ด ๊ถ๊ธํ์๋ค๋ฉด ์ GitHub Repo๋ฅผ ํ์ธํด์ฃผ์๊ธธ ๋ฐ๋๋๋ค!! ๋ค์ ํ ๋ฒ ์ด๋ฐ ํ๋ก์ ํธ๋ฅผ ์งํํ ์ ์๋๋ก AlpaGasus๋ฅผ ์ ์ํด์ฃผ์ ๋ ผ๋ฌธ ์ ์๋ถ๋ค๊ผ ๊ฐ์ฌ๋๋ฆฝ๋๋ค!
AlpaGasus2-QLoRA Repository: https://github.com/gauss5930/AlpaGasus2-QLoRA
GitHub - gauss5930/AlpaGasus2-QLoRA: This is AlpaGasus2-QLoRA based on LLaMA2 with AlpaGasus mechanism using QLoRA!
This is AlpaGasus2-QLoRA based on LLaMA2 with AlpaGasus mechanism using QLoRA! - GitHub - gauss5930/AlpaGasus2-QLoRA: This is AlpaGasus2-QLoRA based on LLaMA2 with AlpaGasus mechanism using QLoRA!
github.com
'Research & Project ๐ฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ด๋ป๊ฒ Quantization์ ์งํํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ๊น? ๐ค (0) | 2023.09.18 |
---|