์ต๊ทผ Hugging Face์ Open LLM Leaderboard๋ฅผ ๋๋ฌ๋ณด๋ ์ค ์๋ก์ด ๋ชจ๋ธ์ด ๋ฆฌ๋๋ณด๋์ 1๋ฑ์ ์์นํด ์๋ ๊ฒ์ ๋ณด๊ณ '์ด๋ค ๋ชจ๋ธ์ด์ง?'๋ผ๋ ๊ถ๊ธ์ฆ์ด ์๊ฒจ์ ์ด๋ ๊ฒ ํฌ์คํ ์ ์์ฑํด ๋ณธ๋ค. ์๋กญ๊ฒ 1๋ฑ์ ์ฐจ์งํ ๋ชจ๋ธ์ ๋ฐ๋ก TII์์ ๊ฐ๋ฐํ Falcon๐ฆ ์ด๋ผ๋ ๋ชจ๋ธ์ด๋ค. Falcon์ ์ด 4๊ฐ์ง ๋ฒ์ ์ ๋ชจ๋ธ์ด ์กด์ฌํ๋๋ฐ, 7B & 40B ์ฌ์ด์ฆ์ ๋ชจ๋ธ๊ณผ ๊ฐ ์ฌ์ด์ฆ์์ ๊ทธ๋ฅ base ๋ฒ์ ๊ณผ instruct-tuned ๋ฒ์ ๊น์ง ํด์ 4๊ฐ์ด๋ค. ๊ทธ์ค์ 40B ์ฌ์ด์ฆ์ instruct-tuned ๋ฒ์ ์ธ 'falcon-40b-instruct'๊ฐ Leaderboard์์ 1๋ฑ์ ์ฐจ์งํ์๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ ์ด๋ฌํ Falcon ๋ชจ๋ธ์ ๋ํด ์์๋ณด๊ณ Falcon์ ๋ง๋๋ ๋ฐ ํฐ ๊ธฐ์ฌ๋ฅผ ํ๋ ๋ฐ์ดํฐ์ ์ธ RefinedWeb ๋ฐ์ดํฐ์ ์ ๋ํ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํด๋ณด์๋ค.
Table of Contents
1. Falcon Models
2. RefinedWeb Dataset
2-1. Introduction
2-2. Macrodata Refinement and RefinedWeb
2-3. Experiments
2-4. Limitations
2-5. Conclusion
Falcon Models
์ด๋ ๊ฒ ์ ๋ฅํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ Open LLM์ธ Falcon์ ์์ฝ๊ฒ๋ ์์ง paper๊ฐ ๋ฐ๋ก ์์ง๋ ์๋ค. (Hugging Face์ model card๋ฅผ ๋ณด๋ฉด 'paper coming soon โบ๏ธ' ์ด๋ผ๊ณ ๋ง ์ ํ ์์ ๋ฟ์ด๋ค,,) ๊ทธ๋์ Falcon model์ ๋ํด์ ๊ฐ๋ตํ๊ฒ ์ค๋ช ์ ํด์ฃผ๋ Hugging Face์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค.
Falcon ๋ชจ๋ธ์ 2๊ฐ์ ๋ฒ ์ด์ค ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋์ด ์๋ค: Falcon-40B & Falcon-7B. ์ด์ค์ Falcon-40B model์ ํ์ฌ(2023.06.14) ๊ธฐ์ค์ผ๋ก Open LLM Leaderboard์ ๋งจ ๊ผญ๋๊ธฐ๋ฅผ ์ฐจ์งํ๊ณ ์๊ณ , Falcon-7B๋ ๋ ์ฌ์ด์ฆ ๋ชจ๋ธ๊ณผ ๋น๊ตํด์๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
Falcon-40B๋ ~90GB ์ ๋์ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์๋ก ํ๋ค. ์ด ์ซ์๋ ์์ฒญ ํฌ๊ฒ ๋ณด์ผ์ง ๋ชฐ๋ผ๋ LLaMA-65B ๋ณด๋ค๋ ์์ ๊ฒ์ด๋ค. ๋ฐ๋ฉด์ Falcon-7B๋ ~15GB๋ง์ ํ์๋ก ํ๊ณ , ์ถ๋ก ๊ณผ fine-tuning์ด ๊ฐ๋ฒผ์ด ํ๋์จ์ด์์๋ ์ถฉ๋ถํ ๋์๊ฐ ์ ์๊ฒ ๋ง๋ค์๋ค.
๋ํ Falcon์ instruct ๋ฒ์ ๋ ๋ง๋ค์ด์ก๋ค: Falcon-40B-Instruct & Falcon-7B-Instruct. ์ด๋ฌํ ์คํ์ ๋ณํ์ instruction๊ณผ ๋ํ ๋ฐ์ดํฐ์์ fine-tune ๋์๋ค. ๋ํ Falcon ๋ชจ๋ธ์ ์๊ธฐ ์์ ๋ง์ ์ปค์คํ instruct ๋ฒ์ ๋ ๋ง๋ค ์ ์๋ค!
Falcon-7B์ Falcon-40B๋ ๊ฐ๊ฐ 1.5T์ 1T ํ ํฐ์์ ๋ชจ๋ธ๋ค์ด ์ถ๋ก ์ ๋ํด ์ต์ ํํ๋ ๊ฒ์ ๋ง์ถฐ์ ํ์ต๋์๋ค. Falcon model์ high quality์ ๋ํ ์ค์ ์์๋ ์ด๋ค์ training data์ด๋ค. ์ด๋ค์ training data๋ ์ฃผ๋ก(>80%) RefinedWeb์ ๊ธฐ๋ฐ์ ๋๊ณ ๋ง๋ค์ด์ก๋ค. TII๋ ํฉ๋ฟ๋ ค์ง ์์ ๋ ์์ค๋ฅผ ๋ชจ์ผ๋ ๊ฒ ๋์ ์ ์น ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ ์ํค๊ณ scaling ํ๋๋ฐ ์ง์คํ๊ธฐ ์ํด, ๋ค๋ฅธ corpora์ ํ๋ฆฌํฐ์ ๋ง์ถ๊ธฐ ์ํด ๋๊ท๋ชจ deduplication๊ณผ ์๊ฒฉํ ํํฐ๋ง์ ํ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๋ค์์ ๋ ์์ธํ๊ฒ ๋ค๋ฃจ๋๋ก ํ๊ฒ ๋ค. Falcon model์ ์์ง ๋ช ๊ฐ์ curated source๋ฅผ ํฌํจํ๊ณ ์๊ธด ํ์ง๋ง ๊ทธ ์์ด ํ์ฌ SoTA ๋ชจ๋ธ๋ค์ธ GPT-3 ๋๋ PaLM๊ณผ ๋น๊ตํด์ ์๋นํ ๋ฎ์ ํธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ TII๊ฐ RefinedWeb์ 600B ํ ํฐ์ ๊ณต๊ฐ์ ์ผ๋ก ๊ณต๊ฐํ๋ค๋ ์ ์ด๋ค! ๐ซข
Falcon model์ ๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ์ ์ ์ด๋ค์ด multiquery attention์ ์ฌ์ฉํ๋ค๋ ์ ์ด๋ค. vanilla multihead attention์ ํค๋ ๋น ๊ฐ๊ฐ ํ๋์ query, key, value๋ฅผ ๊ฐ์ง์ง๋ง, multiquery๋ ๋ชจ๋ ํค๋์ ๋ํด์ ๋ฑ ํ๋์ key์ value๋ง์ ๊ฐ์ง๋ค.
์ด๋ฌํ ํธ๋ฆญ์ pre-training์ ํฐ ์ํฅ์ ๋ผ์น์ง๋ ์์ง๋ง, ์ถ๋ก ์ scalability๋ฅผ ํฌ๊ฒ ๊ฐ์ ์ํจ๋ค. ๋ค์์ ํ๋ ์ง๊ธ๊น์ง ๋์จ Open LLM๋ค์ด๋ค.
RefinedWeb Dataset
Falcone model๊ณผ ๋ฌ๋ฆฌ RefinedWeb์ ๋ ผ๋ฌธ์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ์ด ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ฆฌํ์๋ค.
Overview of RefinedWeb
LLM์ ์ผ๋ฐ์ ์ผ๋ก ํํฐ๋ง๋ ์น ๋ฐ์ดํฐ์ curated high-quality corpora์ ๋ฌถ์์์ ํ์ต๋๋ค. ์ด curation ํ๋ก์ธ์ค๋ ๊ด๋ฒ์ํ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง๋ ๋ฅ์ํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ํ์์ ์ด๋ผ๊ณ ๋ฏฟ์ด์ก๋ค. ํ์ง๋ง, larger ๋ชจ๋ธ์ ์ ์กฐ ๊ฐ์ ํ ํฐ์์์ ํ์ต์ ํ์๋ก ํ์ง๋ง curation์ด ์ผ๋ง๋ ํ์ฅ ๊ฐ๋ฅํ์ง, ๊ณ ์ ํ ๊ณ ํ์ง ๋ฐ์ดํฐ๊ฐ ๊ณง ๊ณ ๊ฐ๋ ์ง๋ ๋ถํ์คํ๋ค.
์ด์ ์ ๋ฏฟ์๊ณผ ๋ฌ๋ฆฌ ์ ์ ํ filtering ๋๊ณ deduplication ๋ ์น ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค. ์ด ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ชจ๋ธ์ The Pile์์ ํ์ต๋ SoTA ๋ชจ๋ธ๋ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ด๋ฒ์ํ ํํฐ๋ง์๋ ๋ถ๊ตฌํ๊ณ ์น์์ ์ถ์ถ๋ high-quality ๋ฐ์ดํฐ๋ ์์ง ํ๋ถํ๊ณ , CommonCrawl ๋ก๋ถํฐ 5์กฐ ๊ฐ์ ํ ํฐ์ ์ป์ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ ์์ ๋งํ๋ ๊ฒ์ฒ๋ผ RefinedWeb ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ถ์ถ๋ 600B ๊ฐ์ ํ ํฐ ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํ๊ณ , 1.3/7.5B ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ์์ ํ์ต์์ผ ์คํ์ ์งํํ์๋ค.
1. Introduction
์๋กญ๊ฒ ๋ฐํ์ง LM์ scaling law(Chincilla)์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด์๋ ํ๋ผ๋ฏธํฐ ๋๋ ๋ฐ์ดํฐ์ ์ ๋ ์ค ํ๋๋ง ๋๋ฆฌ๋ ๊ฒ๋ณด๋ค ์ด ๋์ ๊ณต๋์ผ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ํตํด ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๋์๋ณด๋ GPT-3์ ์ต์ ์ผ๋ก ํ์ต์ํค๋๋ฐ ํ์ํ ๋ฐ์ดํฐ์ ์์ ํ์กดํ๋ ๊ฐ์ฅ ํฐ ๋ฐ์ดํฐ์ ์ 2๋ฐฐ๊ฐ๋ ์ ๋๊ฐ ํ์ํ๋ค๊ณ ํ๋ค.
ํ์ง๋ง ์ด๋ฌํ ๋ฐ๊ฒฌ์๋ ๋ถ๊ตฌํ๊ณ ์ฐ๊ตฌ์๋ค์ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์๋ํ๋ฉด ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ํ์ ๋์ด ์๊ณ , ํนํ ํ๋ฆฌํฐ์ ๋ผ์ด์ ์ค ๋ฑ์ ๋ฌธ์ ๋ฅผ ๋ฐ์ง๋ฉด ํจ์ฌ ๋ ๋ง์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ณ ๋ง๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ๊ฒ ์ป์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ ํํฐ๋ง์ ๊ฑฐ์น๋ ๊ณผ์ ์์๋ ๋ง์ ๋น์ฉ์ด ๋ฐ์ํ ๋ฟ๋๋ฌ ํํฐ๋ง์ ๊ฑฐ์น๊ณ ๋๋ฉด ๋ฐ์ดํฐ์ ์ด ๋ง์ด ๊ฐ์ํ๋๋ ๊ฒฝํฅ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ ํ์์ ์ฆ๊ฐ๋ฅผ ๊ฒฌ๋๊ณ , ๋ฐ์ดํฐ pipeline์ ๊ฐ์ํํ๊ณ human-intensive curation์ ํ์๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋์ฑ ์ ์ฒ๋ฆฌํ ์ ์๋์ง ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- 5์กฐ ๊ฐ์ web-only ์์ด pre-training ๋ฐ์ดํฐ์ธ RefinedWeb ์๊ฐํจ
- web data alone์์ ํ์ต๋ ๋ชจ๋ธ์ด public & private curated corpora ๋ชจ๋์์ ํ์ตํ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๋ชจ๋ธ์ ๋ง๋ฆ
- RefinedWeb์์ ์ถ์ถ๋ 600B ํ ํฐ์ ๊ณต๊ฐํ๊ณ 1B & 7B ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ์์ ํ์ต์ํด
2. Macrodata Refinement and RefinedWeb
๋ ผ๋ฌธ์์๋ CommonCrawl์ ์น ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ๊ณ decuplication ํ๊ธฐ ์ํ pipeline์ธ MDR(MacroData Refinement)์ ์๊ฐํ์๋ค. ์ด MDR์ ์ฌ์ฉํด์ RefinedWeb์ ์์ฑํ์๋ค. ๋ ผ๋ฌธ์์๋ ์น ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๋์ด์ฌ๋ฆฌ๊ธฐ ์ํด ์๊ฒฉํ ํํฐ๋ง๊ณผ deduplication์ ํ์ฉํ์๋ค.
Design Principles. ๋ ผ๋ฌธ์์๋ ๋ค์์ ๊ฐ์ด๋๋ผ์ธ์ ์ค์ํ์๋ค:
- Scale first. 40-200B ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์์ฑ์ ์ํด MDR์ ์ฌ์ฉํ์๋ค. ๊ทธ๋์ 3~6T ๊ฐ์ ํ ํฐ์ ํฌํจํ๋ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํ์๋ค. ๊ทธ๋ฆฌ๊ณ human curation ํ๋ก์ธ์ค๋ ์ฌ๋งํ๋ฉด ์ผ๊ฐ๋ค.
- Strict Deduplication. ์ด์ ์ ์ฐ๊ตฌ์ ์๊ฐ์ ๋ฐ์์ ์๊ฒฉํ deduplication pipeline์ ๊ตฌํํ์๋ค. ์ด๋ฅผ ์ํด exact & fuzzy deduplication์ ๋ฌถ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด์ ์ ๊ธฐ๋ก๋ ์ ๊ฑฐ์จ๋ณด๋ค ๋์ ์ ๊ฑฐ์จ์ ๊ธฐ๋กํ์๋ค!
- Neutral Filtering. ์๋์น ์์ bias๋ฅผ ๋ชจ๋ธ์๊ฒ ์ฃผ๋ ๊ฒ์ ํผํ๊ธฐ ์ํด, language identification ์ธ๋ถ์์ ML ๊ธฐ๋ฐ ํํฐ ์ฌ์ฉ์ ํผํ์๋ค.
๋ค์์ ํ 3์ MDR์ ๊ฐ ๋จ๊ณ์์ ์ํ๋๋ ๊ณผ์ ๋ค์ ๋๋ต์ ์ผ๋ก ์ค๋ช ํ ๊ฒ์ด๋ค.
๋ค์์ ๊ทธ๋ฆผ 4๋ MDR์ด ์ง๋จ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ ์ด๋ ํ ๋ณํ๊ฐ ๋ฐ์ํ๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. Document Preparation ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW-Raw๋ผ ํ๊ณ , ์ด๋ 48% ์ ๋์ ๋ฐ์ดํฐ๋ง ๋จ๊ณ ๋๋ถ๋ถ์ด language identification ๊ณผ์ ์ค์ ํํฐ๋ง๋๋ค. ๊ทธ๋ฆฌ๊ณ FIltering ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW-Filtered๋ผ ํ๊ณ , ์ ์ฒด ๋ฐ์ดํฐ์ ์ 23% ์ ๋๋ง ๋จ๊ฒ ๋๊ณ , ์ด๋ RW-Raw์ 50% ์ ๋ ๋๋ ๊ท๋ชจ์ด๋ค. ๋ง์ง๋ง์ผ๋ก Deduplication ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW(RefinedWeb)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
2-3. Experiments
Setting
๋ ผ๋ฌธ์์๋ validation loss๋ฅผ ๊ณ์ฐํ๊ธฐ๋ณด๋ค ๋ง์ task์ ๋ํ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋๋ฐ ์ง์คํ์๋ค. ๊ทธ๋ฆฌ๊ณ ํ๊ฐ๋ฅผ Eleuther AI evaluation์ ๊ธฐ๋ฐํด์ ์งํํจ์ผ๋ก์จ ๋ค์ํ task์ ๊ฑธ์ณ์ zero-shot ์ธํ ์์ ํ๊ฐํ ์ ์๊ฒ ํ๋ฝํด ์คฌ๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ํ 4์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ small(ablation์ฉ)๊ณผ core, main, ext(๋น๊ต์ฉ)์ผ๋ก ๋๋ ์ง๋ค.
๋ ผ๋ฌธ์์๋ ๋น๊ต์ 3๊ฐ์ง ๋ ๋ฒจ์ ๊ตฌ๋ณํ์๋ค.
- internal comparison. ๋ ผ๋ฌธ์ ์ฝ๋๋ฒ ์ด์ค์์ ํ์ต๋๊ณ ํ๊ฐ๋ ๋ชจ๋ธ์ด์ง๋ง, pre-training ๋ฐ์ดํฐ์ ๋ง ๋ค๋ฆ
- benchmark-level comparison. ์๋ก ๋ค๋ฅธ ์ฝ๋๋ฒ ์ด์ค์ ํจ๊ป ํ์ต๋ ๋ชจ๋ธ์ด์ง๋ง, Eleuther AI harness๋ก ํ๊ฐ๋จ
- external comparison. PaLM๊ณผ GPT-3์ ๋น๊ต๋จ
๋ ผ๋ฌธ์์ ํ์ต์ํจ ๋ชจ๋ธ์ ์ด 3๊ฐ์ง๋ก 1B, 3B, 7B AR decoder-only model์ด๋ค. ์ด ๋ชจ๋ธ๋ค์ GPT-3์ ์ ์ฌํ ๊ตฌ์ฑ๊ณผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ํด scaling law๋ฅผ ๋ฐ๋ผ์ ์ต์ ์ ํ ํฐ ์๋ก ํ์ต์์ผฐ๋ค. 1B ๋ชจ๋ธ์ 27B ํ ํฐ์ผ๋ก, 3B ๋ชจ๋ธ์ 60B ํ ํฐ์ผ๋ก ํ์ต์์ผฐ๋ค.
Can wed data alone outperform curated corpora?
๋ ผ๋ฌธ์์๋ web data๋ก๋ง ํ์ต๋ ๋ชจ๋ธ์ด curated corpora์์ ํ์ต๋ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋์ง ์ค๋ช ํ๊ธฐ ์ํด ์ ๋ช ์น ๋ฐ์ดํฐ์ ๊ณผ curated ๋ฐ์ดํฐ์ ์์ ์ต์ ์ผ๋ก ํ์ต๋ 1~3B ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์คํ์ ์งํํ์๋ค. ๊ทธ๋ค์์ 1B ๋ชจ๋ธ์ 350GT์์ ํ์ต๋ 7B ๋ชจ๋ธ๋ก scale up ํด์ SoTA ๋ชจ๋ธ๊ณผ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋น๊ตํ์๋ค.
small scale study. ๋ ผ๋ฌธ์์๋ RefinedWeb์ ์ธ๋ถ ๋ฐ์ดํฐ์ธ RW-Raw, RW-Filtered, RW ๊ฐ๊ฐ์ ๋น๊ตํ๊ธฐ ์ํด์ ๋๊ฐ์ ์ํคํ ์ฒ์ ์ฝ๋๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ๊ณ , ๋๊ฐ์ ํ๋ ์์ํฌ์์ ํ๊ฐ๋์ง๋ง ์๋ก ๋ค๋ฅธ pre-training ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ๋ชจ๋ธ๋ค์ ๋น๊ตํ์๋ค(ํ 5). ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด filtering๊ณผ deduplication์ ์ฑ๋ฅ์ ์๋นํ ๊ฐ์ ์ํจ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
full scale models. ์์ ์คํ์ ๊ท๋ชจ๋ฅผ ํค์์ 350GT์์ 1B & 7B ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ๋ํ The Pile์์ 1B ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ธ๋ค์ ํ์กดํ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์๋ค. main-agg์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๊ณ , core-agg์ ext-agg์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 5์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ํ์คํ ์คํ ๋ชจ๋ธ์ ๊ฐ์ธ์ ์ธ curated corpora์์ ํ์ต๋ ๋ชจ๋ธ๋ณด๋ค underperform ํ๋ ๊ฒ์ ์ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ณด๋ฉด RefinedWeb์์ ํ์ต๋ ๋ชจ๋ธ์ ์ค์ง web data๋ง ์ฌ์ฉํด์ GPT-3 ์๋ฆฌ์ฆ์ ๋ง๋จน๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋ค. ๋ํ The Pile์์ ์ฌ์ฉ๋๋ high-quality source๋ RefinedWeb์์๋ ์ ์ธ๋์๋ค.
Finding. ์ ์ ํ filtering ๋๊ณ deduplication ๋ ์น ๋ฐ์ดํฐ์์ ํ์ต๋ LM์ curated data์์ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๊ฑฐ์ ๋ง๋จน๋๋ค.
Do other corpora benefit from MDR?
MDR์ filtering & deduplication ์คํ ์ด์ง๋ฅผ ๋ค๋ฅธ pre-training ๋ฐ์ดํฐ์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉํด์ ์ด๋ค์ด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ๋๋ฆฌ ์ฌ์ฉ๋ ์ ์๋์ง ์ฐ๊ตฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ํ 6์ ๋ํ๋ ์๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- filtering์ ์ฑ๋ฅ ๊ฐ์ ์ ์ฒด๊ณ์ ์ด์ง ์์. filtering์ ์ ๊ฑฐ ๋น์จ์ downstrema ์ ํ๋์ ๊ฐํ๊ฒ ์ฐ๊ด๋์ด ์์ง ์์.
- deduplication์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค. ์ ๊ฑฐ ๋น์จ๋ ์ฑ๋ฅ ๋ณํ์ ๋ ๋์ ์๊ด์ฑ์ ๋ณด์.
filtering๊ณผ deduplication์ ๋ฌถ์์ ์ถ๊ฐ์ ๊ฐ์ ์ ๋ด๋๋๋ค. ๋น๋ก ์ฑ๋ฅ์ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ๋์ฑ ๊ท ์ผํ์ง๋ง, ์ฐจ์ด์ ์ ๋จ์์๋ค. ์ด๋ ๊ธฐ์กด text ์ถ์ถ๊ณผ ์ฒ๋ฆฌ์ ์๋ ๊ฒฐ์ ์ ์์ ํ ๋ณด์ํ ์ ์๋ค๋ ๊ฒ์ ์ ์ํ๋ค.
Finding. filtering ํด๋ฆฌ์คํฑ์ ์์ค ์์กด์ ํ๋์ ํ์๋ก ํ๋ ๋ฐ๋ฉด ์๊ฒฉํ deduplication๋ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ์ผ๊ด์ ์ผ๋ก zero-shot ์ฑ๋ฅ์ ๊ฐ์ ์ํจ๋ค.
The end of posting..
์ด๋ ๊ฒ ํด์ Falcon model๊ณผ ์ด ๋ชจ๋ธ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ๋ํด ์์๋ดค๋ค. ์์ง Falcon model์ paper๊ฐ ๊ณต๊ฐ๋์ง ์์์ ์์ธํ ๋ด์ฉ์ ์๊ธฐ๋ ํ๋๋ ์ถํ์ ๋ ผ๋ฌธ์ด ๊ณต๊ฐ๋๋ฉด ๋ค์ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ฐ์ ์ ์ํด์๋ ์์ผ๋ก๋ ์ด๋ฌํ Open LLM์ด ๋ง์ด ๊ฐ๋ฐ๋์ด์ผ ํ๋ค๊ณ ์๊ฐํ๊ณ , ๊ทธ๋ฐ ์ธก๋ฉด์์ Falcon์ ๊ณต๊ฐ๋ ์์ผ๋ก์ ๋ฐ์ ์ ๋์์ด ๋๋ ๊ฐ๋ฐ์ด๋ผ๊ณ ์๊ฐํ๋ค. Falcon์ ๋ชจ๋ธ ์นด๋์ ๋ํด์ ๊ถ๊ธํ๋ค๋ฉด ๋ค์์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
https://huggingface.co/tiiuae/falcon-40b
์ถ์ฒ
https://huggingface.co/blog/falcon
https://arxiv.org/abs/2306.01116