์ต๊ทผ Hugging Face์ Open LLM Leaderboard๋ฅผ ๋๋ฌ๋ณด๋ ์ค ์๋ก์ด ๋ชจ๋ธ์ด ๋ฆฌ๋๋ณด๋์ 1๋ฑ์ ์์นํด ์๋ ๊ฒ์ ๋ณด๊ณ '์ด๋ค ๋ชจ๋ธ์ด์ง?'๋ผ๋ ๊ถ๊ธ์ฆ์ด ์๊ฒจ์ ์ด๋ ๊ฒ ํฌ์คํ ์ ์์ฑํด ๋ณธ๋ค. ์๋กญ๊ฒ 1๋ฑ์ ์ฐจ์งํ ๋ชจ๋ธ์ ๋ฐ๋ก TII์์ ๊ฐ๋ฐํ Falcon๐ฆ ์ด๋ผ๋ ๋ชจ๋ธ์ด๋ค. Falcon์ ์ด 4๊ฐ์ง ๋ฒ์ ์ ๋ชจ๋ธ์ด ์กด์ฌํ๋๋ฐ, 7B & 40B ์ฌ์ด์ฆ์ ๋ชจ๋ธ๊ณผ ๊ฐ ์ฌ์ด์ฆ์์ ๊ทธ๋ฅ base ๋ฒ์ ๊ณผ instruct-tuned ๋ฒ์ ๊น์ง ํด์ 4๊ฐ์ด๋ค. ๊ทธ์ค์ 40B ์ฌ์ด์ฆ์ instruct-tuned ๋ฒ์ ์ธ 'falcon-40b-instruct'๊ฐ Leaderboard์์ 1๋ฑ์ ์ฐจ์งํ์๋ค.

์ด๋ฒ ํฌ์คํ ์์๋ ์ด๋ฌํ Falcon ๋ชจ๋ธ์ ๋ํด ์์๋ณด๊ณ Falcon์ ๋ง๋๋ ๋ฐ ํฐ ๊ธฐ์ฌ๋ฅผ ํ๋ ๋ฐ์ดํฐ์ ์ธ RefinedWeb ๋ฐ์ดํฐ์ ์ ๋ํ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํด๋ณด์๋ค.
Table of Contents
1. Falcon Models
2. RefinedWeb Dataset
2-1. Introduction
2-2. Macrodata Refinement and RefinedWeb
2-3. Experiments
2-4. Limitations
2-5. Conclusion
Falcon Models
์ด๋ ๊ฒ ์ ๋ฅํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ Open LLM์ธ Falcon์ ์์ฝ๊ฒ๋ ์์ง paper๊ฐ ๋ฐ๋ก ์์ง๋ ์๋ค. (Hugging Face์ model card๋ฅผ ๋ณด๋ฉด 'paper coming soon โบ๏ธ' ์ด๋ผ๊ณ ๋ง ์ ํ ์์ ๋ฟ์ด๋ค,,) ๊ทธ๋์ Falcon model์ ๋ํด์ ๊ฐ๋ตํ๊ฒ ์ค๋ช ์ ํด์ฃผ๋ Hugging Face์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค.
Falcon ๋ชจ๋ธ์ 2๊ฐ์ ๋ฒ ์ด์ค ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋์ด ์๋ค: Falcon-40B & Falcon-7B. ์ด์ค์ Falcon-40B model์ ํ์ฌ(2023.06.14) ๊ธฐ์ค์ผ๋ก Open LLM Leaderboard์ ๋งจ ๊ผญ๋๊ธฐ๋ฅผ ์ฐจ์งํ๊ณ ์๊ณ , Falcon-7B๋ ๋ ์ฌ์ด์ฆ ๋ชจ๋ธ๊ณผ ๋น๊ตํด์๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
Falcon-40B๋ ~90GB ์ ๋์ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์๋ก ํ๋ค. ์ด ์ซ์๋ ์์ฒญ ํฌ๊ฒ ๋ณด์ผ์ง ๋ชฐ๋ผ๋ LLaMA-65B ๋ณด๋ค๋ ์์ ๊ฒ์ด๋ค. ๋ฐ๋ฉด์ Falcon-7B๋ ~15GB๋ง์ ํ์๋ก ํ๊ณ , ์ถ๋ก ๊ณผ fine-tuning์ด ๊ฐ๋ฒผ์ด ํ๋์จ์ด์์๋ ์ถฉ๋ถํ ๋์๊ฐ ์ ์๊ฒ ๋ง๋ค์๋ค.
๋ํ Falcon์ instruct ๋ฒ์ ๋ ๋ง๋ค์ด์ก๋ค: Falcon-40B-Instruct & Falcon-7B-Instruct. ์ด๋ฌํ ์คํ์ ๋ณํ์ instruction๊ณผ ๋ํ ๋ฐ์ดํฐ์์ fine-tune ๋์๋ค. ๋ํ Falcon ๋ชจ๋ธ์ ์๊ธฐ ์์ ๋ง์ ์ปค์คํ instruct ๋ฒ์ ๋ ๋ง๋ค ์ ์๋ค!
Falcon-7B์ Falcon-40B๋ ๊ฐ๊ฐ 1.5T์ 1T ํ ํฐ์์ ๋ชจ๋ธ๋ค์ด ์ถ๋ก ์ ๋ํด ์ต์ ํํ๋ ๊ฒ์ ๋ง์ถฐ์ ํ์ต๋์๋ค. Falcon model์ high quality์ ๋ํ ์ค์ ์์๋ ์ด๋ค์ training data์ด๋ค. ์ด๋ค์ training data๋ ์ฃผ๋ก(>80%) RefinedWeb์ ๊ธฐ๋ฐ์ ๋๊ณ ๋ง๋ค์ด์ก๋ค. TII๋ ํฉ๋ฟ๋ ค์ง ์์ ๋ ์์ค๋ฅผ ๋ชจ์ผ๋ ๊ฒ ๋์ ์ ์น ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ ์ํค๊ณ scaling ํ๋๋ฐ ์ง์คํ๊ธฐ ์ํด, ๋ค๋ฅธ corpora์ ํ๋ฆฌํฐ์ ๋ง์ถ๊ธฐ ์ํด ๋๊ท๋ชจ deduplication๊ณผ ์๊ฒฉํ ํํฐ๋ง์ ํ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๋ค์์ ๋ ์์ธํ๊ฒ ๋ค๋ฃจ๋๋ก ํ๊ฒ ๋ค. Falcon model์ ์์ง ๋ช ๊ฐ์ curated source๋ฅผ ํฌํจํ๊ณ ์๊ธด ํ์ง๋ง ๊ทธ ์์ด ํ์ฌ SoTA ๋ชจ๋ธ๋ค์ธ GPT-3 ๋๋ PaLM๊ณผ ๋น๊ตํด์ ์๋นํ ๋ฎ์ ํธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ TII๊ฐ RefinedWeb์ 600B ํ ํฐ์ ๊ณต๊ฐ์ ์ผ๋ก ๊ณต๊ฐํ๋ค๋ ์ ์ด๋ค! ๐ซข
Falcon model์ ๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ์ ์ ์ด๋ค์ด multiquery attention์ ์ฌ์ฉํ๋ค๋ ์ ์ด๋ค. vanilla multihead attention์ ํค๋ ๋น ๊ฐ๊ฐ ํ๋์ query, key, value๋ฅผ ๊ฐ์ง์ง๋ง, multiquery๋ ๋ชจ๋ ํค๋์ ๋ํด์ ๋ฑ ํ๋์ key์ value๋ง์ ๊ฐ์ง๋ค.

์ด๋ฌํ ํธ๋ฆญ์ pre-training์ ํฐ ์ํฅ์ ๋ผ์น์ง๋ ์์ง๋ง, ์ถ๋ก ์ scalability๋ฅผ ํฌ๊ฒ ๊ฐ์ ์ํจ๋ค. ๋ค์์ ํ๋ ์ง๊ธ๊น์ง ๋์จ Open LLM๋ค์ด๋ค.

RefinedWeb Dataset
Falcone model๊ณผ ๋ฌ๋ฆฌ RefinedWeb์ ๋ ผ๋ฌธ์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ์ด ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ฆฌํ์๋ค.
Overview of RefinedWeb
LLM์ ์ผ๋ฐ์ ์ผ๋ก ํํฐ๋ง๋ ์น ๋ฐ์ดํฐ์ curated high-quality corpora์ ๋ฌถ์์์ ํ์ต๋๋ค. ์ด curation ํ๋ก์ธ์ค๋ ๊ด๋ฒ์ํ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง๋ ๋ฅ์ํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ํ์์ ์ด๋ผ๊ณ ๋ฏฟ์ด์ก๋ค. ํ์ง๋ง, larger ๋ชจ๋ธ์ ์ ์กฐ ๊ฐ์ ํ ํฐ์์์ ํ์ต์ ํ์๋ก ํ์ง๋ง curation์ด ์ผ๋ง๋ ํ์ฅ ๊ฐ๋ฅํ์ง, ๊ณ ์ ํ ๊ณ ํ์ง ๋ฐ์ดํฐ๊ฐ ๊ณง ๊ณ ๊ฐ๋ ์ง๋ ๋ถํ์คํ๋ค.
์ด์ ์ ๋ฏฟ์๊ณผ ๋ฌ๋ฆฌ ์ ์ ํ filtering ๋๊ณ deduplication ๋ ์น ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค. ์ด ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ชจ๋ธ์ The Pile์์ ํ์ต๋ SoTA ๋ชจ๋ธ๋ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ด๋ฒ์ํ ํํฐ๋ง์๋ ๋ถ๊ตฌํ๊ณ ์น์์ ์ถ์ถ๋ high-quality ๋ฐ์ดํฐ๋ ์์ง ํ๋ถํ๊ณ , CommonCrawl ๋ก๋ถํฐ 5์กฐ ๊ฐ์ ํ ํฐ์ ์ป์ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ ์์ ๋งํ๋ ๊ฒ์ฒ๋ผ RefinedWeb ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ถ์ถ๋ 600B ๊ฐ์ ํ ํฐ ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํ๊ณ , 1.3/7.5B ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ์์ ํ์ต์์ผ ์คํ์ ์งํํ์๋ค.

1. Introduction
์๋กญ๊ฒ ๋ฐํ์ง LM์ scaling law(Chincilla)์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด์๋ ํ๋ผ๋ฏธํฐ ๋๋ ๋ฐ์ดํฐ์ ์ ๋ ์ค ํ๋๋ง ๋๋ฆฌ๋ ๊ฒ๋ณด๋ค ์ด ๋์ ๊ณต๋์ผ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ํตํด ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๋์๋ณด๋ GPT-3์ ์ต์ ์ผ๋ก ํ์ต์ํค๋๋ฐ ํ์ํ ๋ฐ์ดํฐ์ ์์ ํ์กดํ๋ ๊ฐ์ฅ ํฐ ๋ฐ์ดํฐ์ ์ 2๋ฐฐ๊ฐ๋ ์ ๋๊ฐ ํ์ํ๋ค๊ณ ํ๋ค.
ํ์ง๋ง ์ด๋ฌํ ๋ฐ๊ฒฌ์๋ ๋ถ๊ตฌํ๊ณ ์ฐ๊ตฌ์๋ค์ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์๋ํ๋ฉด ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ํ์ ๋์ด ์๊ณ , ํนํ ํ๋ฆฌํฐ์ ๋ผ์ด์ ์ค ๋ฑ์ ๋ฌธ์ ๋ฅผ ๋ฐ์ง๋ฉด ํจ์ฌ ๋ ๋ง์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ณ ๋ง๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ๊ฒ ์ป์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ ํํฐ๋ง์ ๊ฑฐ์น๋ ๊ณผ์ ์์๋ ๋ง์ ๋น์ฉ์ด ๋ฐ์ํ ๋ฟ๋๋ฌ ํํฐ๋ง์ ๊ฑฐ์น๊ณ ๋๋ฉด ๋ฐ์ดํฐ์ ์ด ๋ง์ด ๊ฐ์ํ๋๋ ๊ฒฝํฅ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ ํ์์ ์ฆ๊ฐ๋ฅผ ๊ฒฌ๋๊ณ , ๋ฐ์ดํฐ pipeline์ ๊ฐ์ํํ๊ณ human-intensive curation์ ํ์๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋์ฑ ์ ์ฒ๋ฆฌํ ์ ์๋์ง ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- 5์กฐ ๊ฐ์ web-only ์์ด pre-training ๋ฐ์ดํฐ์ธ RefinedWeb ์๊ฐํจ
- web data alone์์ ํ์ต๋ ๋ชจ๋ธ์ด public & private curated corpora ๋ชจ๋์์ ํ์ตํ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๋ชจ๋ธ์ ๋ง๋ฆ
- RefinedWeb์์ ์ถ์ถ๋ 600B ํ ํฐ์ ๊ณต๊ฐํ๊ณ 1B & 7B ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ์์ ํ์ต์ํด

2. Macrodata Refinement and RefinedWeb
๋ ผ๋ฌธ์์๋ CommonCrawl์ ์น ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ๊ณ decuplication ํ๊ธฐ ์ํ pipeline์ธ MDR(MacroData Refinement)์ ์๊ฐํ์๋ค. ์ด MDR์ ์ฌ์ฉํด์ RefinedWeb์ ์์ฑํ์๋ค. ๋ ผ๋ฌธ์์๋ ์น ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๋์ด์ฌ๋ฆฌ๊ธฐ ์ํด ์๊ฒฉํ ํํฐ๋ง๊ณผ deduplication์ ํ์ฉํ์๋ค.
Design Principles. ๋ ผ๋ฌธ์์๋ ๋ค์์ ๊ฐ์ด๋๋ผ์ธ์ ์ค์ํ์๋ค:
- Scale first. 40-200B ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์์ฑ์ ์ํด MDR์ ์ฌ์ฉํ์๋ค. ๊ทธ๋์ 3~6T ๊ฐ์ ํ ํฐ์ ํฌํจํ๋ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํ์๋ค. ๊ทธ๋ฆฌ๊ณ human curation ํ๋ก์ธ์ค๋ ์ฌ๋งํ๋ฉด ์ผ๊ฐ๋ค.
- Strict Deduplication. ์ด์ ์ ์ฐ๊ตฌ์ ์๊ฐ์ ๋ฐ์์ ์๊ฒฉํ deduplication pipeline์ ๊ตฌํํ์๋ค. ์ด๋ฅผ ์ํด exact & fuzzy deduplication์ ๋ฌถ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด์ ์ ๊ธฐ๋ก๋ ์ ๊ฑฐ์จ๋ณด๋ค ๋์ ์ ๊ฑฐ์จ์ ๊ธฐ๋กํ์๋ค!
- Neutral Filtering. ์๋์น ์์ bias๋ฅผ ๋ชจ๋ธ์๊ฒ ์ฃผ๋ ๊ฒ์ ํผํ๊ธฐ ์ํด, language identification ์ธ๋ถ์์ ML ๊ธฐ๋ฐ ํํฐ ์ฌ์ฉ์ ํผํ์๋ค.
๋ค์์ ํ 3์ MDR์ ๊ฐ ๋จ๊ณ์์ ์ํ๋๋ ๊ณผ์ ๋ค์ ๋๋ต์ ์ผ๋ก ์ค๋ช ํ ๊ฒ์ด๋ค.

๋ค์์ ๊ทธ๋ฆผ 4๋ MDR์ด ์ง๋จ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ ์ด๋ ํ ๋ณํ๊ฐ ๋ฐ์ํ๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. Document Preparation ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW-Raw๋ผ ํ๊ณ , ์ด๋ 48% ์ ๋์ ๋ฐ์ดํฐ๋ง ๋จ๊ณ ๋๋ถ๋ถ์ด language identification ๊ณผ์ ์ค์ ํํฐ๋ง๋๋ค. ๊ทธ๋ฆฌ๊ณ FIltering ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW-Filtered๋ผ ํ๊ณ , ์ ์ฒด ๋ฐ์ดํฐ์ ์ 23% ์ ๋๋ง ๋จ๊ฒ ๋๊ณ , ์ด๋ RW-Raw์ 50% ์ ๋ ๋๋ ๊ท๋ชจ์ด๋ค. ๋ง์ง๋ง์ผ๋ก Deduplication ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW(RefinedWeb)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.

2-3. Experiments
Setting
๋ ผ๋ฌธ์์๋ validation loss๋ฅผ ๊ณ์ฐํ๊ธฐ๋ณด๋ค ๋ง์ task์ ๋ํ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋๋ฐ ์ง์คํ์๋ค. ๊ทธ๋ฆฌ๊ณ ํ๊ฐ๋ฅผ Eleuther AI evaluation์ ๊ธฐ๋ฐํด์ ์งํํจ์ผ๋ก์จ ๋ค์ํ task์ ๊ฑธ์ณ์ zero-shot ์ธํ ์์ ํ๊ฐํ ์ ์๊ฒ ํ๋ฝํด ์คฌ๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ํ 4์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ small(ablation์ฉ)๊ณผ core, main, ext(๋น๊ต์ฉ)์ผ๋ก ๋๋ ์ง๋ค.

๋ ผ๋ฌธ์์๋ ๋น๊ต์ 3๊ฐ์ง ๋ ๋ฒจ์ ๊ตฌ๋ณํ์๋ค.
- internal comparison. ๋ ผ๋ฌธ์ ์ฝ๋๋ฒ ์ด์ค์์ ํ์ต๋๊ณ ํ๊ฐ๋ ๋ชจ๋ธ์ด์ง๋ง, pre-training ๋ฐ์ดํฐ์ ๋ง ๋ค๋ฆ
- benchmark-level comparison. ์๋ก ๋ค๋ฅธ ์ฝ๋๋ฒ ์ด์ค์ ํจ๊ป ํ์ต๋ ๋ชจ๋ธ์ด์ง๋ง, Eleuther AI harness๋ก ํ๊ฐ๋จ
- external comparison. PaLM๊ณผ GPT-3์ ๋น๊ต๋จ
๋ ผ๋ฌธ์์ ํ์ต์ํจ ๋ชจ๋ธ์ ์ด 3๊ฐ์ง๋ก 1B, 3B, 7B AR decoder-only model์ด๋ค. ์ด ๋ชจ๋ธ๋ค์ GPT-3์ ์ ์ฌํ ๊ตฌ์ฑ๊ณผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ํด scaling law๋ฅผ ๋ฐ๋ผ์ ์ต์ ์ ํ ํฐ ์๋ก ํ์ต์์ผฐ๋ค. 1B ๋ชจ๋ธ์ 27B ํ ํฐ์ผ๋ก, 3B ๋ชจ๋ธ์ 60B ํ ํฐ์ผ๋ก ํ์ต์์ผฐ๋ค.
Can wed data alone outperform curated corpora?
๋ ผ๋ฌธ์์๋ web data๋ก๋ง ํ์ต๋ ๋ชจ๋ธ์ด curated corpora์์ ํ์ต๋ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋์ง ์ค๋ช ํ๊ธฐ ์ํด ์ ๋ช ์น ๋ฐ์ดํฐ์ ๊ณผ curated ๋ฐ์ดํฐ์ ์์ ์ต์ ์ผ๋ก ํ์ต๋ 1~3B ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์คํ์ ์งํํ์๋ค. ๊ทธ๋ค์์ 1B ๋ชจ๋ธ์ 350GT์์ ํ์ต๋ 7B ๋ชจ๋ธ๋ก scale up ํด์ SoTA ๋ชจ๋ธ๊ณผ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋น๊ตํ์๋ค.
small scale study. ๋ ผ๋ฌธ์์๋ RefinedWeb์ ์ธ๋ถ ๋ฐ์ดํฐ์ธ RW-Raw, RW-Filtered, RW ๊ฐ๊ฐ์ ๋น๊ตํ๊ธฐ ์ํด์ ๋๊ฐ์ ์ํคํ ์ฒ์ ์ฝ๋๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ๊ณ , ๋๊ฐ์ ํ๋ ์์ํฌ์์ ํ๊ฐ๋์ง๋ง ์๋ก ๋ค๋ฅธ pre-training ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ๋ชจ๋ธ๋ค์ ๋น๊ตํ์๋ค(ํ 5). ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด filtering๊ณผ deduplication์ ์ฑ๋ฅ์ ์๋นํ ๊ฐ์ ์ํจ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.

full scale models. ์์ ์คํ์ ๊ท๋ชจ๋ฅผ ํค์์ 350GT์์ 1B & 7B ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ๋ํ The Pile์์ 1B ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ธ๋ค์ ํ์กดํ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์๋ค. main-agg์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๊ณ , core-agg์ ext-agg์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 5์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ํ์คํ ์คํ ๋ชจ๋ธ์ ๊ฐ์ธ์ ์ธ curated corpora์์ ํ์ต๋ ๋ชจ๋ธ๋ณด๋ค underperform ํ๋ ๊ฒ์ ์ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ณด๋ฉด RefinedWeb์์ ํ์ต๋ ๋ชจ๋ธ์ ์ค์ง web data๋ง ์ฌ์ฉํด์ GPT-3 ์๋ฆฌ์ฆ์ ๋ง๋จน๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋ค. ๋ํ The Pile์์ ์ฌ์ฉ๋๋ high-quality source๋ RefinedWeb์์๋ ์ ์ธ๋์๋ค.

Finding. ์ ์ ํ filtering ๋๊ณ deduplication ๋ ์น ๋ฐ์ดํฐ์์ ํ์ต๋ LM์ curated data์์ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๊ฑฐ์ ๋ง๋จน๋๋ค.
Do other corpora benefit from MDR?
MDR์ filtering & deduplication ์คํ ์ด์ง๋ฅผ ๋ค๋ฅธ pre-training ๋ฐ์ดํฐ์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉํด์ ์ด๋ค์ด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ๋๋ฆฌ ์ฌ์ฉ๋ ์ ์๋์ง ์ฐ๊ตฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ํ 6์ ๋ํ๋ ์๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- filtering์ ์ฑ๋ฅ ๊ฐ์ ์ ์ฒด๊ณ์ ์ด์ง ์์. filtering์ ์ ๊ฑฐ ๋น์จ์ downstrema ์ ํ๋์ ๊ฐํ๊ฒ ์ฐ๊ด๋์ด ์์ง ์์.
- deduplication์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค. ์ ๊ฑฐ ๋น์จ๋ ์ฑ๋ฅ ๋ณํ์ ๋ ๋์ ์๊ด์ฑ์ ๋ณด์.
filtering๊ณผ deduplication์ ๋ฌถ์์ ์ถ๊ฐ์ ๊ฐ์ ์ ๋ด๋๋๋ค. ๋น๋ก ์ฑ๋ฅ์ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ๋์ฑ ๊ท ์ผํ์ง๋ง, ์ฐจ์ด์ ์ ๋จ์์๋ค. ์ด๋ ๊ธฐ์กด text ์ถ์ถ๊ณผ ์ฒ๋ฆฌ์ ์๋ ๊ฒฐ์ ์ ์์ ํ ๋ณด์ํ ์ ์๋ค๋ ๊ฒ์ ์ ์ํ๋ค.

Finding. filtering ํด๋ฆฌ์คํฑ์ ์์ค ์์กด์ ํ๋์ ํ์๋ก ํ๋ ๋ฐ๋ฉด ์๊ฒฉํ deduplication๋ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ์ผ๊ด์ ์ผ๋ก zero-shot ์ฑ๋ฅ์ ๊ฐ์ ์ํจ๋ค.
The end of posting..
์ด๋ ๊ฒ ํด์ Falcon model๊ณผ ์ด ๋ชจ๋ธ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ๋ํด ์์๋ดค๋ค. ์์ง Falcon model์ paper๊ฐ ๊ณต๊ฐ๋์ง ์์์ ์์ธํ ๋ด์ฉ์ ์๊ธฐ๋ ํ๋๋ ์ถํ์ ๋ ผ๋ฌธ์ด ๊ณต๊ฐ๋๋ฉด ๋ค์ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ฐ์ ์ ์ํด์๋ ์์ผ๋ก๋ ์ด๋ฌํ Open LLM์ด ๋ง์ด ๊ฐ๋ฐ๋์ด์ผ ํ๋ค๊ณ ์๊ฐํ๊ณ , ๊ทธ๋ฐ ์ธก๋ฉด์์ Falcon์ ๊ณต๊ฐ๋ ์์ผ๋ก์ ๋ฐ์ ์ ๋์์ด ๋๋ ๊ฐ๋ฐ์ด๋ผ๊ณ ์๊ฐํ๋ค. Falcon์ ๋ชจ๋ธ ์นด๋์ ๋ํด์ ๊ถ๊ธํ๋ค๋ฉด ๋ค์์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
https://huggingface.co/tiiuae/falcon-40b
tiiuae/falcon-40b ยท Hugging Face
๐ Falcon-40B Falcon-40B is a 40B parameters causal decoder-only model built by TII and trained on 1,000B tokens of RefinedWeb enhanced with curated corpora. It is made available under the Apache 2.0 license. Paper coming soon ๐. ๐ค To get started w
huggingface.co
์ถ์ฒ
https://huggingface.co/blog/falcon
The Falcon has landed in the Hugging Face ecosystem
The Falcon has landed in the Hugging Face ecosystem Introduction Falcon is a new family of state-of-the-art language models created by the Technology Innovation Institute in Abu Dhabi, and released under the Apache 2.0 license. Notably, Falcon-40B is the f
huggingface.co
https://arxiv.org/abs/2306.01116
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models wi
arxiv.org
'Paper Reading ๐ > Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ต๊ทผ Hugging Face์ Open LLM Leaderboard๋ฅผ ๋๋ฌ๋ณด๋ ์ค ์๋ก์ด ๋ชจ๋ธ์ด ๋ฆฌ๋๋ณด๋์ 1๋ฑ์ ์์นํด ์๋ ๊ฒ์ ๋ณด๊ณ '์ด๋ค ๋ชจ๋ธ์ด์ง?'๋ผ๋ ๊ถ๊ธ์ฆ์ด ์๊ฒจ์ ์ด๋ ๊ฒ ํฌ์คํ ์ ์์ฑํด ๋ณธ๋ค. ์๋กญ๊ฒ 1๋ฑ์ ์ฐจ์งํ ๋ชจ๋ธ์ ๋ฐ๋ก TII์์ ๊ฐ๋ฐํ Falcon๐ฆ ์ด๋ผ๋ ๋ชจ๋ธ์ด๋ค. Falcon์ ์ด 4๊ฐ์ง ๋ฒ์ ์ ๋ชจ๋ธ์ด ์กด์ฌํ๋๋ฐ, 7B & 40B ์ฌ์ด์ฆ์ ๋ชจ๋ธ๊ณผ ๊ฐ ์ฌ์ด์ฆ์์ ๊ทธ๋ฅ base ๋ฒ์ ๊ณผ instruct-tuned ๋ฒ์ ๊น์ง ํด์ 4๊ฐ์ด๋ค. ๊ทธ์ค์ 40B ์ฌ์ด์ฆ์ instruct-tuned ๋ฒ์ ์ธ 'falcon-40b-instruct'๊ฐ Leaderboard์์ 1๋ฑ์ ์ฐจ์งํ์๋ค.

์ด๋ฒ ํฌ์คํ ์์๋ ์ด๋ฌํ Falcon ๋ชจ๋ธ์ ๋ํด ์์๋ณด๊ณ Falcon์ ๋ง๋๋ ๋ฐ ํฐ ๊ธฐ์ฌ๋ฅผ ํ๋ ๋ฐ์ดํฐ์ ์ธ RefinedWeb ๋ฐ์ดํฐ์ ์ ๋ํ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํด๋ณด์๋ค.
Table of Contents
1. Falcon Models
2. RefinedWeb Dataset
2-1. Introduction
2-2. Macrodata Refinement and RefinedWeb
2-3. Experiments
2-4. Limitations
2-5. Conclusion
Falcon Models
์ด๋ ๊ฒ ์ ๋ฅํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ Open LLM์ธ Falcon์ ์์ฝ๊ฒ๋ ์์ง paper๊ฐ ๋ฐ๋ก ์์ง๋ ์๋ค. (Hugging Face์ model card๋ฅผ ๋ณด๋ฉด 'paper coming soon โบ๏ธ' ์ด๋ผ๊ณ ๋ง ์ ํ ์์ ๋ฟ์ด๋ค,,) ๊ทธ๋์ Falcon model์ ๋ํด์ ๊ฐ๋ตํ๊ฒ ์ค๋ช ์ ํด์ฃผ๋ Hugging Face์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค.
Falcon ๋ชจ๋ธ์ 2๊ฐ์ ๋ฒ ์ด์ค ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋์ด ์๋ค: Falcon-40B & Falcon-7B. ์ด์ค์ Falcon-40B model์ ํ์ฌ(2023.06.14) ๊ธฐ์ค์ผ๋ก Open LLM Leaderboard์ ๋งจ ๊ผญ๋๊ธฐ๋ฅผ ์ฐจ์งํ๊ณ ์๊ณ , Falcon-7B๋ ๋ ์ฌ์ด์ฆ ๋ชจ๋ธ๊ณผ ๋น๊ตํด์๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
Falcon-40B๋ ~90GB ์ ๋์ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์๋ก ํ๋ค. ์ด ์ซ์๋ ์์ฒญ ํฌ๊ฒ ๋ณด์ผ์ง ๋ชฐ๋ผ๋ LLaMA-65B ๋ณด๋ค๋ ์์ ๊ฒ์ด๋ค. ๋ฐ๋ฉด์ Falcon-7B๋ ~15GB๋ง์ ํ์๋ก ํ๊ณ , ์ถ๋ก ๊ณผ fine-tuning์ด ๊ฐ๋ฒผ์ด ํ๋์จ์ด์์๋ ์ถฉ๋ถํ ๋์๊ฐ ์ ์๊ฒ ๋ง๋ค์๋ค.
๋ํ Falcon์ instruct ๋ฒ์ ๋ ๋ง๋ค์ด์ก๋ค: Falcon-40B-Instruct & Falcon-7B-Instruct. ์ด๋ฌํ ์คํ์ ๋ณํ์ instruction๊ณผ ๋ํ ๋ฐ์ดํฐ์์ fine-tune ๋์๋ค. ๋ํ Falcon ๋ชจ๋ธ์ ์๊ธฐ ์์ ๋ง์ ์ปค์คํ instruct ๋ฒ์ ๋ ๋ง๋ค ์ ์๋ค!
Falcon-7B์ Falcon-40B๋ ๊ฐ๊ฐ 1.5T์ 1T ํ ํฐ์์ ๋ชจ๋ธ๋ค์ด ์ถ๋ก ์ ๋ํด ์ต์ ํํ๋ ๊ฒ์ ๋ง์ถฐ์ ํ์ต๋์๋ค. Falcon model์ high quality์ ๋ํ ์ค์ ์์๋ ์ด๋ค์ training data์ด๋ค. ์ด๋ค์ training data๋ ์ฃผ๋ก(>80%) RefinedWeb์ ๊ธฐ๋ฐ์ ๋๊ณ ๋ง๋ค์ด์ก๋ค. TII๋ ํฉ๋ฟ๋ ค์ง ์์ ๋ ์์ค๋ฅผ ๋ชจ์ผ๋ ๊ฒ ๋์ ์ ์น ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ ์ํค๊ณ scaling ํ๋๋ฐ ์ง์คํ๊ธฐ ์ํด, ๋ค๋ฅธ corpora์ ํ๋ฆฌํฐ์ ๋ง์ถ๊ธฐ ์ํด ๋๊ท๋ชจ deduplication๊ณผ ์๊ฒฉํ ํํฐ๋ง์ ํ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๋ค์์ ๋ ์์ธํ๊ฒ ๋ค๋ฃจ๋๋ก ํ๊ฒ ๋ค. Falcon model์ ์์ง ๋ช ๊ฐ์ curated source๋ฅผ ํฌํจํ๊ณ ์๊ธด ํ์ง๋ง ๊ทธ ์์ด ํ์ฌ SoTA ๋ชจ๋ธ๋ค์ธ GPT-3 ๋๋ PaLM๊ณผ ๋น๊ตํด์ ์๋นํ ๋ฎ์ ํธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ TII๊ฐ RefinedWeb์ 600B ํ ํฐ์ ๊ณต๊ฐ์ ์ผ๋ก ๊ณต๊ฐํ๋ค๋ ์ ์ด๋ค! ๐ซข
Falcon model์ ๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ์ ์ ์ด๋ค์ด multiquery attention์ ์ฌ์ฉํ๋ค๋ ์ ์ด๋ค. vanilla multihead attention์ ํค๋ ๋น ๊ฐ๊ฐ ํ๋์ query, key, value๋ฅผ ๊ฐ์ง์ง๋ง, multiquery๋ ๋ชจ๋ ํค๋์ ๋ํด์ ๋ฑ ํ๋์ key์ value๋ง์ ๊ฐ์ง๋ค.

์ด๋ฌํ ํธ๋ฆญ์ pre-training์ ํฐ ์ํฅ์ ๋ผ์น์ง๋ ์์ง๋ง, ์ถ๋ก ์ scalability๋ฅผ ํฌ๊ฒ ๊ฐ์ ์ํจ๋ค. ๋ค์์ ํ๋ ์ง๊ธ๊น์ง ๋์จ Open LLM๋ค์ด๋ค.

RefinedWeb Dataset
Falcone model๊ณผ ๋ฌ๋ฆฌ RefinedWeb์ ๋ ผ๋ฌธ์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ์ด ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ฆฌํ์๋ค.
Overview of RefinedWeb
LLM์ ์ผ๋ฐ์ ์ผ๋ก ํํฐ๋ง๋ ์น ๋ฐ์ดํฐ์ curated high-quality corpora์ ๋ฌถ์์์ ํ์ต๋๋ค. ์ด curation ํ๋ก์ธ์ค๋ ๊ด๋ฒ์ํ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง๋ ๋ฅ์ํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ํ์์ ์ด๋ผ๊ณ ๋ฏฟ์ด์ก๋ค. ํ์ง๋ง, larger ๋ชจ๋ธ์ ์ ์กฐ ๊ฐ์ ํ ํฐ์์์ ํ์ต์ ํ์๋ก ํ์ง๋ง curation์ด ์ผ๋ง๋ ํ์ฅ ๊ฐ๋ฅํ์ง, ๊ณ ์ ํ ๊ณ ํ์ง ๋ฐ์ดํฐ๊ฐ ๊ณง ๊ณ ๊ฐ๋ ์ง๋ ๋ถํ์คํ๋ค.
์ด์ ์ ๋ฏฟ์๊ณผ ๋ฌ๋ฆฌ ์ ์ ํ filtering ๋๊ณ deduplication ๋ ์น ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค. ์ด ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ชจ๋ธ์ The Pile์์ ํ์ต๋ SoTA ๋ชจ๋ธ๋ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ด๋ฒ์ํ ํํฐ๋ง์๋ ๋ถ๊ตฌํ๊ณ ์น์์ ์ถ์ถ๋ high-quality ๋ฐ์ดํฐ๋ ์์ง ํ๋ถํ๊ณ , CommonCrawl ๋ก๋ถํฐ 5์กฐ ๊ฐ์ ํ ํฐ์ ์ป์ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ ์์ ๋งํ๋ ๊ฒ์ฒ๋ผ RefinedWeb ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ถ์ถ๋ 600B ๊ฐ์ ํ ํฐ ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํ๊ณ , 1.3/7.5B ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ์์ ํ์ต์์ผ ์คํ์ ์งํํ์๋ค.

1. Introduction
์๋กญ๊ฒ ๋ฐํ์ง LM์ scaling law(Chincilla)์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด์๋ ํ๋ผ๋ฏธํฐ ๋๋ ๋ฐ์ดํฐ์ ์ ๋ ์ค ํ๋๋ง ๋๋ฆฌ๋ ๊ฒ๋ณด๋ค ์ด ๋์ ๊ณต๋์ผ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ํตํด ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๋์๋ณด๋ GPT-3์ ์ต์ ์ผ๋ก ํ์ต์ํค๋๋ฐ ํ์ํ ๋ฐ์ดํฐ์ ์์ ํ์กดํ๋ ๊ฐ์ฅ ํฐ ๋ฐ์ดํฐ์ ์ 2๋ฐฐ๊ฐ๋ ์ ๋๊ฐ ํ์ํ๋ค๊ณ ํ๋ค.
ํ์ง๋ง ์ด๋ฌํ ๋ฐ๊ฒฌ์๋ ๋ถ๊ตฌํ๊ณ ์ฐ๊ตฌ์๋ค์ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์๋ํ๋ฉด ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ํ์ ๋์ด ์๊ณ , ํนํ ํ๋ฆฌํฐ์ ๋ผ์ด์ ์ค ๋ฑ์ ๋ฌธ์ ๋ฅผ ๋ฐ์ง๋ฉด ํจ์ฌ ๋ ๋ง์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ณ ๋ง๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ๊ฒ ์ป์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ ํํฐ๋ง์ ๊ฑฐ์น๋ ๊ณผ์ ์์๋ ๋ง์ ๋น์ฉ์ด ๋ฐ์ํ ๋ฟ๋๋ฌ ํํฐ๋ง์ ๊ฑฐ์น๊ณ ๋๋ฉด ๋ฐ์ดํฐ์ ์ด ๋ง์ด ๊ฐ์ํ๋๋ ๊ฒฝํฅ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ ํ์์ ์ฆ๊ฐ๋ฅผ ๊ฒฌ๋๊ณ , ๋ฐ์ดํฐ pipeline์ ๊ฐ์ํํ๊ณ human-intensive curation์ ํ์๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋์ฑ ์ ์ฒ๋ฆฌํ ์ ์๋์ง ์ ์ํ์๋ค. ๋ ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
- 5์กฐ ๊ฐ์ web-only ์์ด pre-training ๋ฐ์ดํฐ์ธ RefinedWeb ์๊ฐํจ
- web data alone์์ ํ์ต๋ ๋ชจ๋ธ์ด public & private curated corpora ๋ชจ๋์์ ํ์ตํ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๋ชจ๋ธ์ ๋ง๋ฆ
- RefinedWeb์์ ์ถ์ถ๋ 600B ํ ํฐ์ ๊ณต๊ฐํ๊ณ 1B & 7B ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ์์ ํ์ต์ํด

2. Macrodata Refinement and RefinedWeb
๋ ผ๋ฌธ์์๋ CommonCrawl์ ์น ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ๊ณ decuplication ํ๊ธฐ ์ํ pipeline์ธ MDR(MacroData Refinement)์ ์๊ฐํ์๋ค. ์ด MDR์ ์ฌ์ฉํด์ RefinedWeb์ ์์ฑํ์๋ค. ๋ ผ๋ฌธ์์๋ ์น ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ๋์ด์ฌ๋ฆฌ๊ธฐ ์ํด ์๊ฒฉํ ํํฐ๋ง๊ณผ deduplication์ ํ์ฉํ์๋ค.
Design Principles. ๋ ผ๋ฌธ์์๋ ๋ค์์ ๊ฐ์ด๋๋ผ์ธ์ ์ค์ํ์๋ค:
- Scale first. 40-200B ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์์ฑ์ ์ํด MDR์ ์ฌ์ฉํ์๋ค. ๊ทธ๋์ 3~6T ๊ฐ์ ํ ํฐ์ ํฌํจํ๋ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํ์๋ค. ๊ทธ๋ฆฌ๊ณ human curation ํ๋ก์ธ์ค๋ ์ฌ๋งํ๋ฉด ์ผ๊ฐ๋ค.
- Strict Deduplication. ์ด์ ์ ์ฐ๊ตฌ์ ์๊ฐ์ ๋ฐ์์ ์๊ฒฉํ deduplication pipeline์ ๊ตฌํํ์๋ค. ์ด๋ฅผ ์ํด exact & fuzzy deduplication์ ๋ฌถ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด์ ์ ๊ธฐ๋ก๋ ์ ๊ฑฐ์จ๋ณด๋ค ๋์ ์ ๊ฑฐ์จ์ ๊ธฐ๋กํ์๋ค!
- Neutral Filtering. ์๋์น ์์ bias๋ฅผ ๋ชจ๋ธ์๊ฒ ์ฃผ๋ ๊ฒ์ ํผํ๊ธฐ ์ํด, language identification ์ธ๋ถ์์ ML ๊ธฐ๋ฐ ํํฐ ์ฌ์ฉ์ ํผํ์๋ค.
๋ค์์ ํ 3์ MDR์ ๊ฐ ๋จ๊ณ์์ ์ํ๋๋ ๊ณผ์ ๋ค์ ๋๋ต์ ์ผ๋ก ์ค๋ช ํ ๊ฒ์ด๋ค.

๋ค์์ ๊ทธ๋ฆผ 4๋ MDR์ด ์ง๋จ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ ์ด๋ ํ ๋ณํ๊ฐ ๋ฐ์ํ๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. Document Preparation ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW-Raw๋ผ ํ๊ณ , ์ด๋ 48% ์ ๋์ ๋ฐ์ดํฐ๋ง ๋จ๊ณ ๋๋ถ๋ถ์ด language identification ๊ณผ์ ์ค์ ํํฐ๋ง๋๋ค. ๊ทธ๋ฆฌ๊ณ FIltering ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW-Filtered๋ผ ํ๊ณ , ์ ์ฒด ๋ฐ์ดํฐ์ ์ 23% ์ ๋๋ง ๋จ๊ฒ ๋๊ณ , ์ด๋ RW-Raw์ 50% ์ ๋ ๋๋ ๊ท๋ชจ์ด๋ค. ๋ง์ง๋ง์ผ๋ก Deduplication ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋์ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ์ ์ RW(RefinedWeb)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.

2-3. Experiments
Setting
๋ ผ๋ฌธ์์๋ validation loss๋ฅผ ๊ณ์ฐํ๊ธฐ๋ณด๋ค ๋ง์ task์ ๋ํ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋๋ฐ ์ง์คํ์๋ค. ๊ทธ๋ฆฌ๊ณ ํ๊ฐ๋ฅผ Eleuther AI evaluation์ ๊ธฐ๋ฐํด์ ์งํํจ์ผ๋ก์จ ๋ค์ํ task์ ๊ฑธ์ณ์ zero-shot ์ธํ ์์ ํ๊ฐํ ์ ์๊ฒ ํ๋ฝํด ์คฌ๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ํ 4์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ small(ablation์ฉ)๊ณผ core, main, ext(๋น๊ต์ฉ)์ผ๋ก ๋๋ ์ง๋ค.

๋ ผ๋ฌธ์์๋ ๋น๊ต์ 3๊ฐ์ง ๋ ๋ฒจ์ ๊ตฌ๋ณํ์๋ค.
- internal comparison. ๋ ผ๋ฌธ์ ์ฝ๋๋ฒ ์ด์ค์์ ํ์ต๋๊ณ ํ๊ฐ๋ ๋ชจ๋ธ์ด์ง๋ง, pre-training ๋ฐ์ดํฐ์ ๋ง ๋ค๋ฆ
- benchmark-level comparison. ์๋ก ๋ค๋ฅธ ์ฝ๋๋ฒ ์ด์ค์ ํจ๊ป ํ์ต๋ ๋ชจ๋ธ์ด์ง๋ง, Eleuther AI harness๋ก ํ๊ฐ๋จ
- external comparison. PaLM๊ณผ GPT-3์ ๋น๊ต๋จ
๋ ผ๋ฌธ์์ ํ์ต์ํจ ๋ชจ๋ธ์ ์ด 3๊ฐ์ง๋ก 1B, 3B, 7B AR decoder-only model์ด๋ค. ์ด ๋ชจ๋ธ๋ค์ GPT-3์ ์ ์ฌํ ๊ตฌ์ฑ๊ณผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ํด scaling law๋ฅผ ๋ฐ๋ผ์ ์ต์ ์ ํ ํฐ ์๋ก ํ์ต์์ผฐ๋ค. 1B ๋ชจ๋ธ์ 27B ํ ํฐ์ผ๋ก, 3B ๋ชจ๋ธ์ 60B ํ ํฐ์ผ๋ก ํ์ต์์ผฐ๋ค.
Can wed data alone outperform curated corpora?
๋ ผ๋ฌธ์์๋ web data๋ก๋ง ํ์ต๋ ๋ชจ๋ธ์ด curated corpora์์ ํ์ต๋ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋์ง ์ค๋ช ํ๊ธฐ ์ํด ์ ๋ช ์น ๋ฐ์ดํฐ์ ๊ณผ curated ๋ฐ์ดํฐ์ ์์ ์ต์ ์ผ๋ก ํ์ต๋ 1~3B ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์คํ์ ์งํํ์๋ค. ๊ทธ๋ค์์ 1B ๋ชจ๋ธ์ 350GT์์ ํ์ต๋ 7B ๋ชจ๋ธ๋ก scale up ํด์ SoTA ๋ชจ๋ธ๊ณผ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋น๊ตํ์๋ค.
small scale study. ๋ ผ๋ฌธ์์๋ RefinedWeb์ ์ธ๋ถ ๋ฐ์ดํฐ์ธ RW-Raw, RW-Filtered, RW ๊ฐ๊ฐ์ ๋น๊ตํ๊ธฐ ์ํด์ ๋๊ฐ์ ์ํคํ ์ฒ์ ์ฝ๋๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ๊ณ , ๋๊ฐ์ ํ๋ ์์ํฌ์์ ํ๊ฐ๋์ง๋ง ์๋ก ๋ค๋ฅธ pre-training ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ๋ชจ๋ธ๋ค์ ๋น๊ตํ์๋ค(ํ 5). ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด filtering๊ณผ deduplication์ ์ฑ๋ฅ์ ์๋นํ ๊ฐ์ ์ํจ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.

full scale models. ์์ ์คํ์ ๊ท๋ชจ๋ฅผ ํค์์ 350GT์์ 1B & 7B ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ๋ํ The Pile์์ 1B ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ธ๋ค์ ํ์กดํ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์๋ค. main-agg์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๊ณ , core-agg์ ext-agg์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 5์ ๋ํ๋ ์๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ํ์คํ ์คํ ๋ชจ๋ธ์ ๊ฐ์ธ์ ์ธ curated corpora์์ ํ์ต๋ ๋ชจ๋ธ๋ณด๋ค underperform ํ๋ ๊ฒ์ ์ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ณด๋ฉด RefinedWeb์์ ํ์ต๋ ๋ชจ๋ธ์ ์ค์ง web data๋ง ์ฌ์ฉํด์ GPT-3 ์๋ฆฌ์ฆ์ ๋ง๋จน๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋ค. ๋ํ The Pile์์ ์ฌ์ฉ๋๋ high-quality source๋ RefinedWeb์์๋ ์ ์ธ๋์๋ค.

Finding. ์ ์ ํ filtering ๋๊ณ deduplication ๋ ์น ๋ฐ์ดํฐ์์ ํ์ต๋ LM์ curated data์์ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๊ฑฐ์ ๋ง๋จน๋๋ค.
Do other corpora benefit from MDR?
MDR์ filtering & deduplication ์คํ ์ด์ง๋ฅผ ๋ค๋ฅธ pre-training ๋ฐ์ดํฐ์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉํด์ ์ด๋ค์ด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ๋๋ฆฌ ์ฌ์ฉ๋ ์ ์๋์ง ์ฐ๊ตฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ํ 6์ ๋ํ๋ ์๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- filtering์ ์ฑ๋ฅ ๊ฐ์ ์ ์ฒด๊ณ์ ์ด์ง ์์. filtering์ ์ ๊ฑฐ ๋น์จ์ downstrema ์ ํ๋์ ๊ฐํ๊ฒ ์ฐ๊ด๋์ด ์์ง ์์.
- deduplication์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค. ์ ๊ฑฐ ๋น์จ๋ ์ฑ๋ฅ ๋ณํ์ ๋ ๋์ ์๊ด์ฑ์ ๋ณด์.
filtering๊ณผ deduplication์ ๋ฌถ์์ ์ถ๊ฐ์ ๊ฐ์ ์ ๋ด๋๋๋ค. ๋น๋ก ์ฑ๋ฅ์ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ๋์ฑ ๊ท ์ผํ์ง๋ง, ์ฐจ์ด์ ์ ๋จ์์๋ค. ์ด๋ ๊ธฐ์กด text ์ถ์ถ๊ณผ ์ฒ๋ฆฌ์ ์๋ ๊ฒฐ์ ์ ์์ ํ ๋ณด์ํ ์ ์๋ค๋ ๊ฒ์ ์ ์ํ๋ค.

Finding. filtering ํด๋ฆฌ์คํฑ์ ์์ค ์์กด์ ํ๋์ ํ์๋ก ํ๋ ๋ฐ๋ฉด ์๊ฒฉํ deduplication๋ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ์ ์ผ๊ด์ ์ผ๋ก zero-shot ์ฑ๋ฅ์ ๊ฐ์ ์ํจ๋ค.
The end of posting..
์ด๋ ๊ฒ ํด์ Falcon model๊ณผ ์ด ๋ชจ๋ธ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ๋ํด ์์๋ดค๋ค. ์์ง Falcon model์ paper๊ฐ ๊ณต๊ฐ๋์ง ์์์ ์์ธํ ๋ด์ฉ์ ์๊ธฐ๋ ํ๋๋ ์ถํ์ ๋ ผ๋ฌธ์ด ๊ณต๊ฐ๋๋ฉด ๋ค์ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ฐ์ ์ ์ํด์๋ ์์ผ๋ก๋ ์ด๋ฌํ Open LLM์ด ๋ง์ด ๊ฐ๋ฐ๋์ด์ผ ํ๋ค๊ณ ์๊ฐํ๊ณ , ๊ทธ๋ฐ ์ธก๋ฉด์์ Falcon์ ๊ณต๊ฐ๋ ์์ผ๋ก์ ๋ฐ์ ์ ๋์์ด ๋๋ ๊ฐ๋ฐ์ด๋ผ๊ณ ์๊ฐํ๋ค. Falcon์ ๋ชจ๋ธ ์นด๋์ ๋ํด์ ๊ถ๊ธํ๋ค๋ฉด ๋ค์์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
https://huggingface.co/tiiuae/falcon-40b
tiiuae/falcon-40b ยท Hugging Face
๐ Falcon-40B Falcon-40B is a 40B parameters causal decoder-only model built by TII and trained on 1,000B tokens of RefinedWeb enhanced with curated corpora. It is made available under the Apache 2.0 license. Paper coming soon ๐. ๐ค To get started w
huggingface.co
์ถ์ฒ
https://huggingface.co/blog/falcon
The Falcon has landed in the Hugging Face ecosystem
The Falcon has landed in the Hugging Face ecosystem Introduction Falcon is a new family of state-of-the-art language models created by the Technology Innovation Institute in Abu Dhabi, and released under the Apache 2.0 license. Notably, Falcon-40B is the f
huggingface.co
https://arxiv.org/abs/2306.01116
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models wi
arxiv.org