Before Starting..
2017๋ NLP๋ฅผ ํฌํจํ ์ง๊ธ๊น์ง์ ๋ฅ๋ฌ๋์ ํ๋๋ฅผ ๋ค์ง์ด์๋ ํ์ ์ ์ธ ๋ชจ๋ธ์ธ 'Transformer'๊ฐ ์ ์๋์๋ค. ์ด๋ฒ ํฌ์คํ ์์ ๋ค๋ค๋ณผ ๋ด์ฉ์ Transformer์ ๋ํ ์์ธํ ๋ด์ฉ์ด ์๋๊ธฐ์ ๋ฐ๋ก ๊น์ด ์์๋ณด์ง๋ ์๊ฒ ์ง๋ง, ์ด๋ฒ ํฌ์คํ ์ ์ดํดํ๊ธฐ ์ํด์๋ ์ด ๋ชจ๋ธ์ ์ฌ์ด์ฆ์ ๋ํด์๋ ์์๋ ํ์๊ฐ ์๋ค. Transformer์ ์ฌ์ด์ฆ๋ 465M ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ด์๋ค. ํ์ง๋ง, ๋ถ๊ณผ 3๋ ๋ง์ ์ด ์ฌ์ด์ฆ๊ฐ ์ ๋ง ์๊ฒ ๋๊ปด์ง๊ฒ ํ ๋งํผ ํฐ ์ฌ์ด์ฆ์ ๋ชจ๋ธ์ธ GPT-3(175B)๊ฐ ๋์ค๊ฒ ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ฌ๊น์ง๋ ์ด๋ณด๋ค ๋ ํฐ ๋ชจ๋ธ๋ค์ ๊ณ์ ๋์ค๊ณ ์๋ค. LM์ ์ฌ์ด์ฆ๊ฐ ์ด๋ ๊ฒ ์ ์ ์ปค์ง๊ฒ ๋ ์ด์ ๋ ๋ฌด์์ผ๊น? ๊ทธ ์ด์ ๋ Kaplan et al. 2020์ ๋ณด๋ฉด ์ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ ๊ฒ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ๊ณ์ ๋๋ ค๊ฐ๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ์ํค๊ธฐ ์ํ ๊ถ๊ทน์ ์ธ ๋ฐฉ๋ฒ์ธ ๊ฒ์ผ๊น? ํ์ ์ฐ๊ตฌ๋ค์ ์ํ๋ฉด ๋ ๊ทธ๋ ์ง๋ง์ ์๋ค๊ณ ํ๋ค(Hoffman et al. 2022, Zhou et al. 2023). ์ด๋ฒ ํฌ์คํ ์์๋ LM์ scaling law์ ๋ณ์ฒ์ฌ์ ๋ํด์ ํ ๋ฒ ์์๋ณด๋๋ก ํ๊ฒ ๋ค!
What is the scaling law? ๐ค๐
์ด๋ฒ ํฌ์คํ ์์ ์์ธํ๊ฒ ๋ค๋ค๋ณผ ๋ด์ฉ์ scaling law์ธ๋ฐ, ์ด scaling law์ ๋ํด์ ์ ๋ชจ๋ฅด๊ณ ์๋ค๋ฉด ํฌ๋ํฐ ๋ญํจ์ด๋, ๊ฐ๋จํ๊ฒ ์ง๊ณ ๋์ด๊ฐ ๋ณด๋๋ก ํ๊ฒ ๋ค.
Scaling law๋ ์ง์ญํด๋ณด๋ฉด, '๊ท๋ชจ ์ฆ๊ฐ์ ๋ฒ์น'์ด๋ผ๊ณ ํด์ํ ์ ์๋ค. ์ค์ ์๋ฏธ๋ ์ด๋ฆ๊ณผ ํฌ๊ฒ ๋ค๋ฅด์ง ์์๋ฐ, ๊ฐ๋จํ๊ฒ ์ค๋ช ํ๋ฉด ์ด๋ค ์์์ ์์ ๋ณํ๋ฅผ ๊ฐํ์ ๋ ๋ค๋ฅธ ์์๊ฐ ๋ณํํ๋ ๊ด๊ณ๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ์ค์ ๋ก scaling law๋ ๋ค์ํ ๊ณผํ ๋ถ์ผ์ ์ฌ์ฉ๋๋ ์ฉ์ด์ธ๋ฐ, ์ด๊ฒ์ ์ปดํจํฐ ๊ณผํ์๋ ์ ์ฉํ ์ ์๋ค. ์ฐ๋ฆฌ๊ฐ ์ด๋ฒ ํฌ์คํ ์์ ๋ค๋ฃจ๊ณ ์ ํ๋ scaling law๋ LM์ scaling law๋ผ๊ณ ๋ณผ ์ ์๋๋ฐ, ์ด๋๋ 'LM์ ์์๋ค์ ๋ณํ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ์ ๋ฒ์น'์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.

์์ ๊ทธ๋ฆผ์ Kaplan et al. 2020์์ ๋ณด์ฌ์ฃผ๋ scaling law์ ์์์ด๋ค. ์ฌ๊ธฐ์์๋ scaling law๋ฅผ compute budget, dataset size, parameters์ ๋ณํ๋ฅผ ์คฌ์ ๋ test loss์ ๋ณํ๋ก ๋ํ๋ด์๋ค. ์ด๋ฅผ ์ ๋ฆฌํด ๋ณด๋ฉด, LM์ scaling law๋ผ๋ ๊ฒ์ 'LM์ dataset size์ parameter ๊ฐ์ ์์์ ๋ณํ๋ฅผ ์คฌ์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํ๋๊ฐ' ๋ผ๊ณ ํด์ํ ์ ์๋ค!
Parameters matter most! (2020) ๐ป
LM์ scaling law๋ฅผ ์ฒ์์ผ๋ก ์๊ฐํ๊ณ ์ ์ํ ๊ฒ์ 2020๋ OpenAI์์ ๋ด๋์ ๋ ผ๋ฌธ์ธ Kaplan, Jared, et al. 'Scaling laws for neural language models.' (2020)์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ LM์ ์ฑ๋ฅ์ด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ์, ๋ฐ์ดํฐ ํฌ๊ธฐ, ์ฐ์ฐ ๋ฅ๋ ฅ๊ณผ ๊ด๋ จ์ด ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ๊ทธ๋์ ๊ณผ์ฐ ์ด๋ค ์์๋ค์ด ๋ ์ค์ํ๊ณ ๋ ์ค์ํ์ง ํ์ ํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ์คํ์ ํตํด LM์ scaling law๋ฅผ ๋ฐํ๋ธ๋ค.
์ด ๋ ผ๋ฌธ์์ ๋ฐํ๋ธ scaling law๋ ๋ค์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.

์์ ๊ทธ๋ฆผ์ ๋ญ๊ฐ ๋ณต์กํ๊ฒ ์๊ฒผ์ง๋ง, ์ง๋ ๊ฒ๋จน์ ํ์๋ ์๋ค. ์ฌ์ค ๊ทธ ์ ๋ป์ ๋งค์ฐ ๊ฐ๋จํ๊ณ ๋ช ๋ฃํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ฐ์ ์ ๊ทธ๋ฆผ์ด ๋์ค๊ฒ ๋ ๊ฒฝ์๋ ๋ ๋ง์ compute budget์ ์ฌ์ฉํ ๋ model size, batch size, training step์ ์ฌ์ด์ฆ๋ฅผ ์ด๋ป๊ฒ ๋๋ฆฌ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ๊น๋ฅผ ์์๋ณด๊ธฐ ์ํด ๊ทธ๋ ค์ง ๊ฒ์ด๋ค. ์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด model size๊ฐ ๊ฐ์ฅ ์ค์ํ๊ณ , ๊ทธ ๋ค์์ batch size, ๋ง์ง๋ง์ผ๋ก training step ์์ผ๋ก loss ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ ์ ์ ์๋ค.
์ด๋ ๊ฒ๋ง ๋งํ๋ฉด ์ด ๋ ผ๋ฌธ์์ ๋งํ๊ณ ์ ํ๋ ๊ฒ์ ๋ํด์ ์ ์ดํด๊ฐ ๊ฐ์ง ์์ ๊ฒ์ด๋ค. ๊ฒฐ๊ตญ์ ์ด ๋ ผ๋ฌธ์์ ํ๊ณ ์ ํ๋ ๋ง์ ๋ ผ๋ฌธ์ Discussion์ ์๋ ํ ๋ฌธ์ฅ์ ์ธ์ฉํด์ ๋งํด๋ณด๊ณ ์ ํ๋ค.
'Big models may be more important than big data.'
์์ ๊ทธ๋ฆผ์์๋ ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ๋ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ ๊ฒ์ฒ๋ผ, ์ด ๋ ผ๋ฌธ์์ ์คํ์ ํตํด ๋ฐํ๋ธ ์ฌ์ค์ 'ํฐ ๋ชจ๋ธ์ด ๋ง์ ์์ ๋ฐ์ดํฐ๋ณด๋ค ์ค์ํ๋ค' ๋ผ๋ ์ฌ์ค์ด๋ค.
์ด๋ฌํ ๋ฐ๊ฒฌ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ OpenAI๋ ๊ฐ์ ๋ ๋ 5์์ ๊ธฐ์กด์ ๋ชจ๋ธ๋ณด๋ค 10๋ฐฐ๊ฐ๋ ์ปค์ง 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ LM์ธ 'GPT-3'๋ฅผ ์๊ฐํ๊ฒ ๋๋ค. ๊ทธ ์ดํ๋ก๋ ์ฝ 2๋ ๊ฐ LM์ ์ฌ์ด์ฆ๊ฐ ์ปค์ง๋ ํธ๋ ๋๋ ๋ค์์ ๊ทธ๋ํ์ฒ๋ผ ๊ณ์๋๋ค.

Not only parameters but also data are too important! (2022) ๐
Kaplan et al. 2020์ scaling law๋ ๋ฐํ ์ดํ ํฅํ 2๋ ๋์ ๋ค์ํ ์ฐ๊ตฌ๋ค์์ ๊ด๋ฒ์ํ๊ฒ ์ฌ์ฉ๋๋ฉฐ, LM์ scaling trend๋ฅผ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋๊ฒ ๋์๋ค. ํ์ง๋ง, ๊ณผ์ฐ Kaplan et al. 2020์์ ๋ฐํํ scaling law๊ฐ ์๋ฒฝํ scaling law ์์๊น? ์ด๋ฌํ ์๊ตฌ์ฌ์ ๋ ํ ๋ฒ ์๋ก์ด scaling law๋ฅผ ์ ์ํ๋ ๋ ผ๋ฌธ์ธ Hoffmann, Jordan, et al. 'Training compute-optimal large language models.' (2022)์ ๋ฐํ๋ฅผ ์ด๋๊ฒ ๋์๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ ์ค์ฌ์ scaling law๋ฅผ ์คํ์ ํตํด ๋นํํ๋ฉด์ ์ข ๋ ๋์ ๊ฐ์ ๋ฐฉ์์ ์ ์ํ๋ค. ์ฌ๊ธฐ์ ์ด์ง ์๊ธด ์ฌ์ค์ ์ฒซ ๋ฒ์งธ scaling law๋ OpenAI์์ ๋ฐํํ ๋ ผ๋ฌธ์ธ๋ฐ, ๋ ๋ฒ์งธ scaling law๋ OpenAI์์ ๋ฐํํ ๋ ผ๋ฌธ์ด๋ผ๋ ์ ์ด๋ค. ๐คฃ
์ด ๋ ผ๋ฌธ์์๋ ์ฃผ์ด์ง compute budget์์ LM์ ํ์ต์ํค๊ธฐ ์ํ ์ต์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ & ํ ํฐ์ ์๋ฅผ ์กฐ์ฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ Kaplan et al. 2020์ scaling law๋ฅผ ๋ฐ๋ฅด๋ ๋ชจ๋ธ๋ค์ ์๋นํ under-train ๋์ด ์๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ์๋ค. ํ ๋ง๋๋ก ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ง ํค์ฐ๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ์ํ ์ ๋ต์ ์๋๋ผ๋ ๊ฒ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ ํ ๋ฐฉ์์ผ๋ก scaling์ ํด์ผ ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ ๊ฒ์ผ๊น? ์ด ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ์ง๋ฌธ์ ๋ตํ๊ณ ์ ํ์๋ค.
'๊ณ ์ ๋ FLOPs budget์ด ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token์ ์๋ฅผ ์ด๋ป๊ฒ trade-off ํด์ผ ํ ๊น?'
์ด ์ง๋ฌธ์ ๋ํ ๋๋ต์ ๊ตฌํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๊ฐ์ง ๊ด์ ์์ ์คํ์ ์งํํ๋๋ฐ ์์ธํ ๋ด์ฉ์ ์ด ํฌ์คํ ์์ ๋ค๋ฃจ์ง ์๋๋ก ํ๊ฒ ๋ค.(์์ธํ ๋ด์ฉ์ด ๊ถ๊ธํ๋ค๋ฉด Chinchilla review๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋) ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋ ผ๋ฌธ์์ ์คํ์ ํตํด ์ป๊ฒ ๋๋ ํ๋์ ๊ทธ๋ํ๊ฐ ์๋ค. ์ด ๊ทธ๋ํ๋ ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.

์์ ๊ทธ๋ํ๋ Kaplan์ scaling law์ ๋ ผ๋ฌธ์์ ์ ์ํ 3๊ฐ์ง approach์ scaling law๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ธฐ์กด์ scaling law๋ ์ข ๋ ๊ฒฝ์ฌ๊ฐ ์๋ scaling law๋ฅผ ๋ณด์ฌ์ฃผ๋ฉด์ ํ๋ผ๋ฏธํฐ ์์ ์ฆ๊ฐ์ ๋ํ ์ค์์ฑ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ด ๋ ผ๋ฌธ์ approach๋ค์ ๋ณด๋ฉด ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฌด ๋ง์ด ์ฆ๊ฐ์ํฌ ํ์๋ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์ approach๋ค์ด ์ ์ํ๋ scaling law๋ ๋ค์์ ํ์ ๊ฐ๋ค.

์์ ํ๋ฅผ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด Kaplan์ scaling law๋ ํ๋ผ๋ฏธํฐ ์์ ์ฆ๊ฐ๋ฅผ ๋๊ฒ ์ค์ํ๊ฒ ์๊ฐํ์ง๋ง, ๋ ผ๋ฌธ์ approach๋ค์ ๋ณด๋ฉด ๊ตณ์ด ๊ทธ๋ด ํ์ ์์ด ํ๋ผ๋ฏธํฐ ์์ ๋ฐ์ดํฐ์ ์๋ฅผ ๊ฐ์ ๋น์จ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ๋ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด๋ฌํ ์ฌ์ค์ ๊ฒ์ฆํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ง๊ธ๊น์ง์ ๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋ ์์ ์ฌ์ด์ฆ์ 70B ๊ฐ์ ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ๊ธฐ์กด 300B ๊ฐ์ ํ ํฐ๋ณด๋ค ํจ์ฌ ๋ง์ 1.4T๊ฐ์ ํ ํฐ์ ๊ฐ์ง๋ ๋ฐ์ดํฐ์์ ํ์ต์ํด์ผ๋ก์จ 4๋ฐฐ ํฐ Gopher ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค! ๐ฒ
Less Is Better: LIB..?? LIMA!! (2023) ๐คฃ
์ด๋ ๊ฒ ํด์ Kaplan et al. 2020, Hoffman et al. 2022์์ ์ ์ํ scaling law๊น์ง ์์๋ดค๋ค. ์ฒ์์ scaling law์์๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ์ค์ํ๋ค๋ ๊ฒ์ ์ ์ํ์๊ณ , ๊ทธ๋ค์์ scaling law์์๋ ํ๋ผ๋ฏธํฐ๋ง์ ๋๋ฆฌ๋ ๊ฒ์ ์๋นํ under-train ํ๊ฒ ๋๊ณ , ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฆฌ๊ธฐ๋ณด๋ค๋ ๋ฐ์ดํฐ์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ๋ ์ค์ํ๋ค๊ณ ์ฃผ์ฅํ์๋ค. ์ด๋ ๊ฒ ํด์ LM์ scaling law๋ ์ด 2๋ฒ์ ๋ณํ๋ฅผ ๊ฑฐ์น๊ฒ ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฒ์ ์๊ฐํ ๋ ผ๋ฌธ์ด ํ์๋ 3๋ฒ์งธ scaling law๊ฐ ๋ ์ ์๋ค๊ณ ์๊ฐํ๋ค. ๋ฌผ๋ก ์ง๊ธ๊น์ง๋ pre-training data์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๊ด๊ณ๋ฅผ ๋ถ์ํ์๊ณ , ์ง๊ธ ์๊ฐํ๋ ค๋ ๋ ผ๋ฌธ์ fine-tuning data์ ๋ํด์ ๋ถ์์ ํ๊ธฐ ๋๋ฌธ์ ์ด์ง ๋ค๋ฅธ ๊ฐ์ด ์์ง๋ง, ๋น์ทํ ๋งฅ๋ฝ์ด๋ผ๊ณ ์๊ฐํ์ฌ ์๊ฐํ๋ ค ํ๋ค! ๐
์ด๋ฒ์ ์๊ฐํ ๋ ผ๋ฌธ์ Meta์์ 2023๋ ์ ๋ฐํํ ๋ฐ๋๋ฐ๋ํ ๋ ผ๋ฌธ์ธ Zhou, Chunting, et al. 'LIMA: Less Is More for Alignment.' (2023) ์ด๋ค. ์ด ๋ ผ๋ฌธ์ ์ ๋ชฉ์ ๋ณด๋ฉด ์ง์ํ ์ ์๋ฏ์ด ์ด ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์์ด ๊ทธ๋ ๊ฒ ๋ง์ ํ์๋ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ ๋ฌผ๋ก ์ฌ๊ธฐ์ ๋งํ๋ ๋ฐ์ดํฐ๋ fine-tuning์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ ๊ฒ์ด๋ค. ๐ ๋ฌผ๋ก ๊ทธ๋ ๋ค๊ณ ์๋ฌด๋ ๊ฒ๋ ์ ํํ ๋ฐ์ดํฐ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ์๊ธฐ๋ ์๋๊ณ , LIMA๋ง์ ๊ธฐ์ค์ผ๋ก ์ ํ๋ ๋ฐ์ดํฐ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ์ค์ ๋ก ๋จ 1,000๊ฐ์ instruction data๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ fine-tune ํ๊ณ ๋ ์๋นํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์์ธํ ๋ด์ฉ์ ๋ํด์ ์์๋ณด์! (์ฌ๊ธฐ์๋ ๊ฐ๋ตํ๊ฒ ์ดํด๋ณด๋๋ฐ ๋์ฑ ๊ตฌ์ฒด์ ์ธ ๋ด์ฉ์ด ๊ถ๊ธํ๋ค๋ฉด LIMA review๋ฅผ ํ์ธํ๊ธธ ๋ฐ๋)
'๋ชจ๋ธ์ ์ง์๊ณผ ๋ฅ๋ ฅ์ ๋๋ถ๋ถ pre-training ์ค์ ํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ fine-tuning์ ์ฌ์ฉ์์
์ํธ์์ฉ์ ํ ๋ ์ฌ์ฉ๋๋ ํฌ๋งท์ ํ์ ๋ถํฌ๋ฅผ ๊ฐ๋ฅด์น๋ ๊ฒ์'
LIMA ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ์ด๋ฏธ pre-training ์ค์ ๋๋ถ๋ถ์ ์ง์๊ณผ ๋ฅ๋ ฅ์ ํ์ตํ๊ฒ ๋๊ณ , fine-tuning์ ๋ชจ๋ธ์ด ์ฌ์ฉ์๋ค๊ณผ ์ํธ์์ฉ ํ๊ธฐ ์ํ ์คํ์ผ ๋๋ ํ์์ ํ์ตํ๋ ๊ฐ๋จํ ํ๋ก์ธ์ค์ผ ์๋ ์๋ค๊ณ ๊ฐ์ ํ์๋ค. ๊ทธ๋์ ์ค์ ์ฌ์ฉ์ prompt์ high-quality reponse์ ๊ฐ๊น์ด 1,000๊ฐ์ example์ ์์ ํ์ฌ LLaMA-65B๋ฅผ fine-tune ํ์ฌ 'LIMA'๋ฅผ ๋ง๋ค์ด ๋ด๊ณ , ์ฌ๋ฌ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํด๋ณธ๋ค. ๊ทธ๋์ ๋ค์๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ๋ค์์ ์ํ๋ง์ ํตํด 1,000๊ฐ์ prompt & response ๋ฐ์ดํฐ์ ์ ์์งํ์๋ค.

์์ 1,000๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ fine-tuning ํ์ฌ LIMA๋ฅผ ์ป๊ฒ ๋์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด์ ์ค์ ๋ก ์ด LIMA๊ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง ๊ฒ์ฆ์ ๊ฑฐ์ณ์ผ ํ ์๊ฐ์ด๋ค! LIMA๋ human evaluation๊ณผ model evaluation์ ๋ชจ๋ ๊ฑฐ์น๋๋ฐ ์๋ ๊ทธ๋ฆผ์ ์ผ์ชฝ์ด human preference evaluation, ์ค๋ฅธ์ชฝ์ด GPT-4 preference evaluation์ ๊ฒฐ๊ณผ์ด๋ค.

์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด LIMA๋ ๋๊ฐ์ base model๊ณผ ๋๊ฐ์ ์ฌ์ด์ฆ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณ , ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuningํ Alpaca 65B๋ณด๋ค ํจ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ํฌ๊ธฐ๊ฐ ๋ ํฌ๊ณ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuning ํ text-davinci-003๋ณด๋ค๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๋ค๋ฅธ proprietary LM๋ณด๋ค๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๊ทธ๋๋ ๋ฐ์ง๊ณ ๋ณด๋ฉด 43%์ ์๋ต์์ GPT-4์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ํ ์ ์๋ค!
์ด๋ ๋ฏ ์ง๊ธ๊น์ง์๋ ๋ค๋ฅด๊ฒ ์๋นํ ์ ์ง๋ง, ๊ทธ๋งํผ ์ข์ ํ๋ฆฌํฐ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuningํ๋ ๊ฒ๋ ์๋นํ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด๋ก ์ธํด fine-tuning data๋ ์ค์ ๋ก ๊ทธ๋ ๊ฒ ๋ง์ ์์ด ํ์ํ์ง ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ์ ์๊ฒ ๋์๋ค. ์ค์ ๋ก LIMA์ ์ด๋ฌํ concept๋ฅผ ๋ฒ ์ด์ค๋ก ํด์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ์ํค๊ฑฐ๋ ํจ์จ์ ์ธ method๋ฅผ ์ ์ํ ์ฐ๊ตฌ๋ค๋ ์๋ค! (Chen et al. 2023, Alshikh et al. 2023)
In the future.. โจ
์ด๋ ๊ฒ ํด์ ์ง๊ธ๊น์ง ์ ์๋ ๊ตต์ง๊ตต์งํ LM์ scaling law์ ๋ํด์ ์์๋ดค๋ค. ์ฒ์์ ์๊ฐ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ค์์ ์ฌ๊ธฐ๋ Kaplan์ scaling law์์, ๋ฐ์ดํฐ์ ํ๋ผ๋ฏธํฐ์ ๋๊ฐ์ ๋น์จ๋ก ์ฆ๊ฐ์ํค๋ Chinchilla scaling law๋ฅผ ๊ฑฐ์ณ์, ๋ง์ง๋ง์๋ ์ข ๋ ์ ์ง๋ง high-quality ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuning ํ๋ LIMA๊น์ง ์์๋ณด์๋ค. ์ด๋ ๋ฏ LM์ scaling law๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ข ๋ ์ฌ๋ ์๋ ์ฐ๊ตฌ๋ฅผ ํตํด ๋จ์ ์ด ๋๋ฌ๋๊ฒ ๋๊ณ ๋ ์๋ก์ด scaling law๊ฐ ๋ฐํ๋์ด ๊ฐ๋ค. ๋ฐ๋ผ์ ์ง๊ธ์ scaling law๋ ์ธ์ ๊ฐ๋ ๋จ์ ์ด ์ง์ ๋๊ณ ๋ ๋ค๋ฅธ scaling law๊ฐ ๋ฐํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค. ๋ฌผ๋ก ์์ง ๊ทธ ์์ ์ด ์ค์ง ์์๊ธฐ์ ์ ํํ ์ด๋ป๊ฒ ๋ ๊ฐ์ ๋ scaling law๊ฐ ์ ์๋ ์ง๋ ์ ๋ชจ๋ฅด์ง๋ง, ํฅํ์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ cost ์ธก๋ฉด์์ ์ข ๋ ํจ์จ์ ์ด๊ณ ํจ๊ณผ์ ์ธ scaling law๊ฐ ๋ฐํ๋์ง ์์๊น ๋ผ๋ ์๊ฐ์ ๋์ ธ๋ณธ๋ค ใ ใ
ํฌ์คํ ์ ๋๊น์ง ๋ด์ฃผ์ ์ ๊ฐ์ฌํ๊ณ , ์ด ๊ธ์ ์ฝ์ด์ฃผ์ ๋ถ๋ค๊ป์๋ ์๊ฒฌ์ ์๋ ค์ฃผ์ จ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค! ๊ทธ๋ฆฌ๊ณ ์๋ชป๋ ์ ์ด๋ ์ด์ํ ์ ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค!! ์ด๋ง ํฌ์คํ ์ ๋ง์ณ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค! ๋ค์์ ๋ ์ข์ ๊ธ๋ก ์ฐพ์๋ต๋๋ก ํ๊ฒ ์ต๋๋ค! ๐๐
์ถ์ฒ
https://arxiv.org/abs/2001.08361
Scaling Laws for Neural Language Models
We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitu
arxiv.org
https://arxiv.org/abs/2203.15556
Training Compute-Optimal Large Language Models
We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling langu
arxiv.org
https://arxiv.org/abs/2305.11206
LIMA: Less Is More for Alignment
Large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforcement learning, to better align to end tasks and user preferences. We
arxiv.org
'Insight ๐' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Before Starting..
2017๋ NLP๋ฅผ ํฌํจํ ์ง๊ธ๊น์ง์ ๋ฅ๋ฌ๋์ ํ๋๋ฅผ ๋ค์ง์ด์๋ ํ์ ์ ์ธ ๋ชจ๋ธ์ธ 'Transformer'๊ฐ ์ ์๋์๋ค. ์ด๋ฒ ํฌ์คํ ์์ ๋ค๋ค๋ณผ ๋ด์ฉ์ Transformer์ ๋ํ ์์ธํ ๋ด์ฉ์ด ์๋๊ธฐ์ ๋ฐ๋ก ๊น์ด ์์๋ณด์ง๋ ์๊ฒ ์ง๋ง, ์ด๋ฒ ํฌ์คํ ์ ์ดํดํ๊ธฐ ์ํด์๋ ์ด ๋ชจ๋ธ์ ์ฌ์ด์ฆ์ ๋ํด์๋ ์์๋ ํ์๊ฐ ์๋ค. Transformer์ ์ฌ์ด์ฆ๋ 465M ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ด์๋ค. ํ์ง๋ง, ๋ถ๊ณผ 3๋ ๋ง์ ์ด ์ฌ์ด์ฆ๊ฐ ์ ๋ง ์๊ฒ ๋๊ปด์ง๊ฒ ํ ๋งํผ ํฐ ์ฌ์ด์ฆ์ ๋ชจ๋ธ์ธ GPT-3(175B)๊ฐ ๋์ค๊ฒ ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ฌ๊น์ง๋ ์ด๋ณด๋ค ๋ ํฐ ๋ชจ๋ธ๋ค์ ๊ณ์ ๋์ค๊ณ ์๋ค. LM์ ์ฌ์ด์ฆ๊ฐ ์ด๋ ๊ฒ ์ ์ ์ปค์ง๊ฒ ๋ ์ด์ ๋ ๋ฌด์์ผ๊น? ๊ทธ ์ด์ ๋ Kaplan et al. 2020์ ๋ณด๋ฉด ์ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ ๊ฒ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ๊ณ์ ๋๋ ค๊ฐ๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ์ํค๊ธฐ ์ํ ๊ถ๊ทน์ ์ธ ๋ฐฉ๋ฒ์ธ ๊ฒ์ผ๊น? ํ์ ์ฐ๊ตฌ๋ค์ ์ํ๋ฉด ๋ ๊ทธ๋ ์ง๋ง์ ์๋ค๊ณ ํ๋ค(Hoffman et al. 2022, Zhou et al. 2023). ์ด๋ฒ ํฌ์คํ ์์๋ LM์ scaling law์ ๋ณ์ฒ์ฌ์ ๋ํด์ ํ ๋ฒ ์์๋ณด๋๋ก ํ๊ฒ ๋ค!
What is the scaling law? ๐ค๐
์ด๋ฒ ํฌ์คํ ์์ ์์ธํ๊ฒ ๋ค๋ค๋ณผ ๋ด์ฉ์ scaling law์ธ๋ฐ, ์ด scaling law์ ๋ํด์ ์ ๋ชจ๋ฅด๊ณ ์๋ค๋ฉด ํฌ๋ํฐ ๋ญํจ์ด๋, ๊ฐ๋จํ๊ฒ ์ง๊ณ ๋์ด๊ฐ ๋ณด๋๋ก ํ๊ฒ ๋ค.
Scaling law๋ ์ง์ญํด๋ณด๋ฉด, '๊ท๋ชจ ์ฆ๊ฐ์ ๋ฒ์น'์ด๋ผ๊ณ ํด์ํ ์ ์๋ค. ์ค์ ์๋ฏธ๋ ์ด๋ฆ๊ณผ ํฌ๊ฒ ๋ค๋ฅด์ง ์์๋ฐ, ๊ฐ๋จํ๊ฒ ์ค๋ช ํ๋ฉด ์ด๋ค ์์์ ์์ ๋ณํ๋ฅผ ๊ฐํ์ ๋ ๋ค๋ฅธ ์์๊ฐ ๋ณํํ๋ ๊ด๊ณ๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ์ค์ ๋ก scaling law๋ ๋ค์ํ ๊ณผํ ๋ถ์ผ์ ์ฌ์ฉ๋๋ ์ฉ์ด์ธ๋ฐ, ์ด๊ฒ์ ์ปดํจํฐ ๊ณผํ์๋ ์ ์ฉํ ์ ์๋ค. ์ฐ๋ฆฌ๊ฐ ์ด๋ฒ ํฌ์คํ ์์ ๋ค๋ฃจ๊ณ ์ ํ๋ scaling law๋ LM์ scaling law๋ผ๊ณ ๋ณผ ์ ์๋๋ฐ, ์ด๋๋ 'LM์ ์์๋ค์ ๋ณํ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ์ ๋ฒ์น'์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.

์์ ๊ทธ๋ฆผ์ Kaplan et al. 2020์์ ๋ณด์ฌ์ฃผ๋ scaling law์ ์์์ด๋ค. ์ฌ๊ธฐ์์๋ scaling law๋ฅผ compute budget, dataset size, parameters์ ๋ณํ๋ฅผ ์คฌ์ ๋ test loss์ ๋ณํ๋ก ๋ํ๋ด์๋ค. ์ด๋ฅผ ์ ๋ฆฌํด ๋ณด๋ฉด, LM์ scaling law๋ผ๋ ๊ฒ์ 'LM์ dataset size์ parameter ๊ฐ์ ์์์ ๋ณํ๋ฅผ ์คฌ์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํ๋๊ฐ' ๋ผ๊ณ ํด์ํ ์ ์๋ค!
Parameters matter most! (2020) ๐ป
LM์ scaling law๋ฅผ ์ฒ์์ผ๋ก ์๊ฐํ๊ณ ์ ์ํ ๊ฒ์ 2020๋ OpenAI์์ ๋ด๋์ ๋ ผ๋ฌธ์ธ Kaplan, Jared, et al. 'Scaling laws for neural language models.' (2020)์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ LM์ ์ฑ๋ฅ์ด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ์, ๋ฐ์ดํฐ ํฌ๊ธฐ, ์ฐ์ฐ ๋ฅ๋ ฅ๊ณผ ๊ด๋ จ์ด ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ๊ทธ๋์ ๊ณผ์ฐ ์ด๋ค ์์๋ค์ด ๋ ์ค์ํ๊ณ ๋ ์ค์ํ์ง ํ์ ํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ์คํ์ ํตํด LM์ scaling law๋ฅผ ๋ฐํ๋ธ๋ค.
์ด ๋ ผ๋ฌธ์์ ๋ฐํ๋ธ scaling law๋ ๋ค์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.

์์ ๊ทธ๋ฆผ์ ๋ญ๊ฐ ๋ณต์กํ๊ฒ ์๊ฒผ์ง๋ง, ์ง๋ ๊ฒ๋จน์ ํ์๋ ์๋ค. ์ฌ์ค ๊ทธ ์ ๋ป์ ๋งค์ฐ ๊ฐ๋จํ๊ณ ๋ช ๋ฃํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ฐ์ ์ ๊ทธ๋ฆผ์ด ๋์ค๊ฒ ๋ ๊ฒฝ์๋ ๋ ๋ง์ compute budget์ ์ฌ์ฉํ ๋ model size, batch size, training step์ ์ฌ์ด์ฆ๋ฅผ ์ด๋ป๊ฒ ๋๋ฆฌ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ๊น๋ฅผ ์์๋ณด๊ธฐ ์ํด ๊ทธ๋ ค์ง ๊ฒ์ด๋ค. ์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด model size๊ฐ ๊ฐ์ฅ ์ค์ํ๊ณ , ๊ทธ ๋ค์์ batch size, ๋ง์ง๋ง์ผ๋ก training step ์์ผ๋ก loss ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ ์ ์ ์๋ค.
์ด๋ ๊ฒ๋ง ๋งํ๋ฉด ์ด ๋ ผ๋ฌธ์์ ๋งํ๊ณ ์ ํ๋ ๊ฒ์ ๋ํด์ ์ ์ดํด๊ฐ ๊ฐ์ง ์์ ๊ฒ์ด๋ค. ๊ฒฐ๊ตญ์ ์ด ๋ ผ๋ฌธ์์ ํ๊ณ ์ ํ๋ ๋ง์ ๋ ผ๋ฌธ์ Discussion์ ์๋ ํ ๋ฌธ์ฅ์ ์ธ์ฉํด์ ๋งํด๋ณด๊ณ ์ ํ๋ค.
'Big models may be more important than big data.'
์์ ๊ทธ๋ฆผ์์๋ ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ๋ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ ๊ฒ์ฒ๋ผ, ์ด ๋ ผ๋ฌธ์์ ์คํ์ ํตํด ๋ฐํ๋ธ ์ฌ์ค์ 'ํฐ ๋ชจ๋ธ์ด ๋ง์ ์์ ๋ฐ์ดํฐ๋ณด๋ค ์ค์ํ๋ค' ๋ผ๋ ์ฌ์ค์ด๋ค.
์ด๋ฌํ ๋ฐ๊ฒฌ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ OpenAI๋ ๊ฐ์ ๋ ๋ 5์์ ๊ธฐ์กด์ ๋ชจ๋ธ๋ณด๋ค 10๋ฐฐ๊ฐ๋ ์ปค์ง 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ LM์ธ 'GPT-3'๋ฅผ ์๊ฐํ๊ฒ ๋๋ค. ๊ทธ ์ดํ๋ก๋ ์ฝ 2๋ ๊ฐ LM์ ์ฌ์ด์ฆ๊ฐ ์ปค์ง๋ ํธ๋ ๋๋ ๋ค์์ ๊ทธ๋ํ์ฒ๋ผ ๊ณ์๋๋ค.

Not only parameters but also data are too important! (2022) ๐
Kaplan et al. 2020์ scaling law๋ ๋ฐํ ์ดํ ํฅํ 2๋ ๋์ ๋ค์ํ ์ฐ๊ตฌ๋ค์์ ๊ด๋ฒ์ํ๊ฒ ์ฌ์ฉ๋๋ฉฐ, LM์ scaling trend๋ฅผ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋๊ฒ ๋์๋ค. ํ์ง๋ง, ๊ณผ์ฐ Kaplan et al. 2020์์ ๋ฐํํ scaling law๊ฐ ์๋ฒฝํ scaling law ์์๊น? ์ด๋ฌํ ์๊ตฌ์ฌ์ ๋ ํ ๋ฒ ์๋ก์ด scaling law๋ฅผ ์ ์ํ๋ ๋ ผ๋ฌธ์ธ Hoffmann, Jordan, et al. 'Training compute-optimal large language models.' (2022)์ ๋ฐํ๋ฅผ ์ด๋๊ฒ ๋์๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ ์ค์ฌ์ scaling law๋ฅผ ์คํ์ ํตํด ๋นํํ๋ฉด์ ์ข ๋ ๋์ ๊ฐ์ ๋ฐฉ์์ ์ ์ํ๋ค. ์ฌ๊ธฐ์ ์ด์ง ์๊ธด ์ฌ์ค์ ์ฒซ ๋ฒ์งธ scaling law๋ OpenAI์์ ๋ฐํํ ๋ ผ๋ฌธ์ธ๋ฐ, ๋ ๋ฒ์งธ scaling law๋ OpenAI์์ ๋ฐํํ ๋ ผ๋ฌธ์ด๋ผ๋ ์ ์ด๋ค. ๐คฃ
์ด ๋ ผ๋ฌธ์์๋ ์ฃผ์ด์ง compute budget์์ LM์ ํ์ต์ํค๊ธฐ ์ํ ์ต์ ์ ๋ชจ๋ธ ์ฌ์ด์ฆ & ํ ํฐ์ ์๋ฅผ ์กฐ์ฌํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ Kaplan et al. 2020์ scaling law๋ฅผ ๋ฐ๋ฅด๋ ๋ชจ๋ธ๋ค์ ์๋นํ under-train ๋์ด ์๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ์๋ค. ํ ๋ง๋๋ก ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ง ํค์ฐ๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ์ํ ์ ๋ต์ ์๋๋ผ๋ ๊ฒ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ ํ ๋ฐฉ์์ผ๋ก scaling์ ํด์ผ ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ ๊ฒ์ผ๊น? ์ด ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ์ง๋ฌธ์ ๋ตํ๊ณ ์ ํ์๋ค.
'๊ณ ์ ๋ FLOPs budget์ด ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ ์ฌ์ด์ฆ์ training token์ ์๋ฅผ ์ด๋ป๊ฒ trade-off ํด์ผ ํ ๊น?'
์ด ์ง๋ฌธ์ ๋ํ ๋๋ต์ ๊ตฌํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๊ฐ์ง ๊ด์ ์์ ์คํ์ ์งํํ๋๋ฐ ์์ธํ ๋ด์ฉ์ ์ด ํฌ์คํ ์์ ๋ค๋ฃจ์ง ์๋๋ก ํ๊ฒ ๋ค.(์์ธํ ๋ด์ฉ์ด ๊ถ๊ธํ๋ค๋ฉด Chinchilla review๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋) ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋ ผ๋ฌธ์์ ์คํ์ ํตํด ์ป๊ฒ ๋๋ ํ๋์ ๊ทธ๋ํ๊ฐ ์๋ค. ์ด ๊ทธ๋ํ๋ ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.

์์ ๊ทธ๋ํ๋ Kaplan์ scaling law์ ๋ ผ๋ฌธ์์ ์ ์ํ 3๊ฐ์ง approach์ scaling law๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ธฐ์กด์ scaling law๋ ์ข ๋ ๊ฒฝ์ฌ๊ฐ ์๋ scaling law๋ฅผ ๋ณด์ฌ์ฃผ๋ฉด์ ํ๋ผ๋ฏธํฐ ์์ ์ฆ๊ฐ์ ๋ํ ์ค์์ฑ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ด ๋ ผ๋ฌธ์ approach๋ค์ ๋ณด๋ฉด ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฌด ๋ง์ด ์ฆ๊ฐ์ํฌ ํ์๋ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์ approach๋ค์ด ์ ์ํ๋ scaling law๋ ๋ค์์ ํ์ ๊ฐ๋ค.

์์ ํ๋ฅผ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด Kaplan์ scaling law๋ ํ๋ผ๋ฏธํฐ ์์ ์ฆ๊ฐ๋ฅผ ๋๊ฒ ์ค์ํ๊ฒ ์๊ฐํ์ง๋ง, ๋ ผ๋ฌธ์ approach๋ค์ ๋ณด๋ฉด ๊ตณ์ด ๊ทธ๋ด ํ์ ์์ด ํ๋ผ๋ฏธํฐ ์์ ๋ฐ์ดํฐ์ ์๋ฅผ ๊ฐ์ ๋น์จ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ๋ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด๋ฌํ ์ฌ์ค์ ๊ฒ์ฆํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ง๊ธ๊น์ง์ ๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋ ์์ ์ฌ์ด์ฆ์ 70B ๊ฐ์ ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ๊ธฐ์กด 300B ๊ฐ์ ํ ํฐ๋ณด๋ค ํจ์ฌ ๋ง์ 1.4T๊ฐ์ ํ ํฐ์ ๊ฐ์ง๋ ๋ฐ์ดํฐ์์ ํ์ต์ํด์ผ๋ก์จ 4๋ฐฐ ํฐ Gopher ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค! ๐ฒ
Less Is Better: LIB..?? LIMA!! (2023) ๐คฃ
์ด๋ ๊ฒ ํด์ Kaplan et al. 2020, Hoffman et al. 2022์์ ์ ์ํ scaling law๊น์ง ์์๋ดค๋ค. ์ฒ์์ scaling law์์๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ์ค์ํ๋ค๋ ๊ฒ์ ์ ์ํ์๊ณ , ๊ทธ๋ค์์ scaling law์์๋ ํ๋ผ๋ฏธํฐ๋ง์ ๋๋ฆฌ๋ ๊ฒ์ ์๋นํ under-train ํ๊ฒ ๋๊ณ , ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฆฌ๊ธฐ๋ณด๋ค๋ ๋ฐ์ดํฐ์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ๋ ์ค์ํ๋ค๊ณ ์ฃผ์ฅํ์๋ค. ์ด๋ ๊ฒ ํด์ LM์ scaling law๋ ์ด 2๋ฒ์ ๋ณํ๋ฅผ ๊ฑฐ์น๊ฒ ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฒ์ ์๊ฐํ ๋ ผ๋ฌธ์ด ํ์๋ 3๋ฒ์งธ scaling law๊ฐ ๋ ์ ์๋ค๊ณ ์๊ฐํ๋ค. ๋ฌผ๋ก ์ง๊ธ๊น์ง๋ pre-training data์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๊ด๊ณ๋ฅผ ๋ถ์ํ์๊ณ , ์ง๊ธ ์๊ฐํ๋ ค๋ ๋ ผ๋ฌธ์ fine-tuning data์ ๋ํด์ ๋ถ์์ ํ๊ธฐ ๋๋ฌธ์ ์ด์ง ๋ค๋ฅธ ๊ฐ์ด ์์ง๋ง, ๋น์ทํ ๋งฅ๋ฝ์ด๋ผ๊ณ ์๊ฐํ์ฌ ์๊ฐํ๋ ค ํ๋ค! ๐
์ด๋ฒ์ ์๊ฐํ ๋ ผ๋ฌธ์ Meta์์ 2023๋ ์ ๋ฐํํ ๋ฐ๋๋ฐ๋ํ ๋ ผ๋ฌธ์ธ Zhou, Chunting, et al. 'LIMA: Less Is More for Alignment.' (2023) ์ด๋ค. ์ด ๋ ผ๋ฌธ์ ์ ๋ชฉ์ ๋ณด๋ฉด ์ง์ํ ์ ์๋ฏ์ด ์ด ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์์ด ๊ทธ๋ ๊ฒ ๋ง์ ํ์๋ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ ๋ฌผ๋ก ์ฌ๊ธฐ์ ๋งํ๋ ๋ฐ์ดํฐ๋ fine-tuning์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ ๊ฒ์ด๋ค. ๐ ๋ฌผ๋ก ๊ทธ๋ ๋ค๊ณ ์๋ฌด๋ ๊ฒ๋ ์ ํํ ๋ฐ์ดํฐ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ์๊ธฐ๋ ์๋๊ณ , LIMA๋ง์ ๊ธฐ์ค์ผ๋ก ์ ํ๋ ๋ฐ์ดํฐ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ์ค์ ๋ก ๋จ 1,000๊ฐ์ instruction data๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ fine-tune ํ๊ณ ๋ ์๋นํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์์ธํ ๋ด์ฉ์ ๋ํด์ ์์๋ณด์! (์ฌ๊ธฐ์๋ ๊ฐ๋ตํ๊ฒ ์ดํด๋ณด๋๋ฐ ๋์ฑ ๊ตฌ์ฒด์ ์ธ ๋ด์ฉ์ด ๊ถ๊ธํ๋ค๋ฉด LIMA review๋ฅผ ํ์ธํ๊ธธ ๋ฐ๋)
'๋ชจ๋ธ์ ์ง์๊ณผ ๋ฅ๋ ฅ์ ๋๋ถ๋ถ pre-training ์ค์ ํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ fine-tuning์ ์ฌ์ฉ์์
์ํธ์์ฉ์ ํ ๋ ์ฌ์ฉ๋๋ ํฌ๋งท์ ํ์ ๋ถํฌ๋ฅผ ๊ฐ๋ฅด์น๋ ๊ฒ์'
LIMA ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ์ด๋ฏธ pre-training ์ค์ ๋๋ถ๋ถ์ ์ง์๊ณผ ๋ฅ๋ ฅ์ ํ์ตํ๊ฒ ๋๊ณ , fine-tuning์ ๋ชจ๋ธ์ด ์ฌ์ฉ์๋ค๊ณผ ์ํธ์์ฉ ํ๊ธฐ ์ํ ์คํ์ผ ๋๋ ํ์์ ํ์ตํ๋ ๊ฐ๋จํ ํ๋ก์ธ์ค์ผ ์๋ ์๋ค๊ณ ๊ฐ์ ํ์๋ค. ๊ทธ๋์ ์ค์ ์ฌ์ฉ์ prompt์ high-quality reponse์ ๊ฐ๊น์ด 1,000๊ฐ์ example์ ์์ ํ์ฌ LLaMA-65B๋ฅผ fine-tune ํ์ฌ 'LIMA'๋ฅผ ๋ง๋ค์ด ๋ด๊ณ , ์ฌ๋ฌ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํด๋ณธ๋ค. ๊ทธ๋์ ๋ค์๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ๋ค์์ ์ํ๋ง์ ํตํด 1,000๊ฐ์ prompt & response ๋ฐ์ดํฐ์ ์ ์์งํ์๋ค.

์์ 1,000๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ fine-tuning ํ์ฌ LIMA๋ฅผ ์ป๊ฒ ๋์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด์ ์ค์ ๋ก ์ด LIMA๊ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง ๊ฒ์ฆ์ ๊ฑฐ์ณ์ผ ํ ์๊ฐ์ด๋ค! LIMA๋ human evaluation๊ณผ model evaluation์ ๋ชจ๋ ๊ฑฐ์น๋๋ฐ ์๋ ๊ทธ๋ฆผ์ ์ผ์ชฝ์ด human preference evaluation, ์ค๋ฅธ์ชฝ์ด GPT-4 preference evaluation์ ๊ฒฐ๊ณผ์ด๋ค.

์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด LIMA๋ ๋๊ฐ์ base model๊ณผ ๋๊ฐ์ ์ฌ์ด์ฆ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณ , ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuningํ Alpaca 65B๋ณด๋ค ํจ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ํฌ๊ธฐ๊ฐ ๋ ํฌ๊ณ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuning ํ text-davinci-003๋ณด๋ค๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๋ค๋ฅธ proprietary LM๋ณด๋ค๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๊ทธ๋๋ ๋ฐ์ง๊ณ ๋ณด๋ฉด 43%์ ์๋ต์์ GPT-4์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ํ ์ ์๋ค!
์ด๋ ๋ฏ ์ง๊ธ๊น์ง์๋ ๋ค๋ฅด๊ฒ ์๋นํ ์ ์ง๋ง, ๊ทธ๋งํผ ์ข์ ํ๋ฆฌํฐ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuningํ๋ ๊ฒ๋ ์๋นํ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด๋ก ์ธํด fine-tuning data๋ ์ค์ ๋ก ๊ทธ๋ ๊ฒ ๋ง์ ์์ด ํ์ํ์ง ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ์ ์๊ฒ ๋์๋ค. ์ค์ ๋ก LIMA์ ์ด๋ฌํ concept๋ฅผ ๋ฒ ์ด์ค๋ก ํด์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ์ํค๊ฑฐ๋ ํจ์จ์ ์ธ method๋ฅผ ์ ์ํ ์ฐ๊ตฌ๋ค๋ ์๋ค! (Chen et al. 2023, Alshikh et al. 2023)
In the future.. โจ
์ด๋ ๊ฒ ํด์ ์ง๊ธ๊น์ง ์ ์๋ ๊ตต์ง๊ตต์งํ LM์ scaling law์ ๋ํด์ ์์๋ดค๋ค. ์ฒ์์ ์๊ฐ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ค์์ ์ฌ๊ธฐ๋ Kaplan์ scaling law์์, ๋ฐ์ดํฐ์ ํ๋ผ๋ฏธํฐ์ ๋๊ฐ์ ๋น์จ๋ก ์ฆ๊ฐ์ํค๋ Chinchilla scaling law๋ฅผ ๊ฑฐ์ณ์, ๋ง์ง๋ง์๋ ์ข ๋ ์ ์ง๋ง high-quality ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ fine-tuning ํ๋ LIMA๊น์ง ์์๋ณด์๋ค. ์ด๋ ๋ฏ LM์ scaling law๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ข ๋ ์ฌ๋ ์๋ ์ฐ๊ตฌ๋ฅผ ํตํด ๋จ์ ์ด ๋๋ฌ๋๊ฒ ๋๊ณ ๋ ์๋ก์ด scaling law๊ฐ ๋ฐํ๋์ด ๊ฐ๋ค. ๋ฐ๋ผ์ ์ง๊ธ์ scaling law๋ ์ธ์ ๊ฐ๋ ๋จ์ ์ด ์ง์ ๋๊ณ ๋ ๋ค๋ฅธ scaling law๊ฐ ๋ฐํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค. ๋ฌผ๋ก ์์ง ๊ทธ ์์ ์ด ์ค์ง ์์๊ธฐ์ ์ ํํ ์ด๋ป๊ฒ ๋ ๊ฐ์ ๋ scaling law๊ฐ ์ ์๋ ์ง๋ ์ ๋ชจ๋ฅด์ง๋ง, ํฅํ์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ cost ์ธก๋ฉด์์ ์ข ๋ ํจ์จ์ ์ด๊ณ ํจ๊ณผ์ ์ธ scaling law๊ฐ ๋ฐํ๋์ง ์์๊น ๋ผ๋ ์๊ฐ์ ๋์ ธ๋ณธ๋ค ใ ใ
ํฌ์คํ ์ ๋๊น์ง ๋ด์ฃผ์ ์ ๊ฐ์ฌํ๊ณ , ์ด ๊ธ์ ์ฝ์ด์ฃผ์ ๋ถ๋ค๊ป์๋ ์๊ฒฌ์ ์๋ ค์ฃผ์ จ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค! ๊ทธ๋ฆฌ๊ณ ์๋ชป๋ ์ ์ด๋ ์ด์ํ ์ ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค!! ์ด๋ง ํฌ์คํ ์ ๋ง์ณ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค! ๋ค์์ ๋ ์ข์ ๊ธ๋ก ์ฐพ์๋ต๋๋ก ํ๊ฒ ์ต๋๋ค! ๐๐
์ถ์ฒ
https://arxiv.org/abs/2001.08361
Scaling Laws for Neural Language Models
We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitu
arxiv.org
https://arxiv.org/abs/2203.15556
Training Compute-Optimal Large Language Models
We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling langu
arxiv.org
https://arxiv.org/abs/2305.11206
LIMA: Less Is More for Alignment
Large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforcement learning, to better align to end tasks and user preferences. We
arxiv.org