๊ตฌ๊ธ์ ํ์ ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ ์ธ์ด ๋ชจ๋ธ์ธ LaMDA๋ฅผ ๋ฐํํ๊ณ ์ผ๋ง ์ง๋์ง ์์์, ๋ฐ๋ก ์ด๋ฅผ ๋ฅ๊ฐํด๋ฒ๋ฆฌ๋ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ธ PaLM์ ๊ณต๊ฐํ์๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด PaLM์ ๋ํด์ ๋ฆฌ๋ทฐํด๋ณด์๊ณ , ๊ตฌ๊ธ์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค. $($๋ ผ๋ฌธ์ด ๋๋ฌด ๊ธธ์ด์ ์ฝ๊ธฐ๊ฐ ๋๋ฌด ํ๋๋ค์,, ๐ $)$ PaLM์ ๋ํ ๋ฆฌ๋ทฐ๋ ์ด ๋ ๊ฐ์ ํฌ์คํธ๋ก ๋๋ ์ ์งํํ์์ต๋๋ค. ์ด ํฌ์คํธ์ธ ์ฒซ ๋ฒ์งธ ํฌ์คํธ์์๋ ์์ ๋งํ ๊ฒ์ฒ๋ผ ๊ตฌ๊ธ์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ PaLM์ ๋๋ต์ ์ธ ์ค๋ช ๊ณผ ์คํ ๊ฒฐ๊ณผ๋ค์ ๋ํด ๋ค๋ค๊ณ , ๋ ๋ฒ์งธ ํฌ์คํธ์์๋ PaLM์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ํด์ ๋ค๋ค๋ณผ ์์ ์ ๋๋ค!! ๋ง์ ๊ด์ฌ ๋ถํ๋๋ฆฝ๋๋ค!!
PaLM์ 'Pathways Language Model'์ ์ฝ์๋ก, ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด ๊ตฌ๊ธ์์ ์๊ฐํ Pathways๋ผ๋ ๊ฐ๋ ์ด ์ฌ์ฉ๋ ๋ชจ๋ธ์ด๋ค. ๋ฐ๋ผ์, ์ด Pathways์ ๋ํ ๊ฐ๋จํ ์ดํด๊ฐ ํ์ํ๋ฐ, ์ด์ ๋ํ ๋ด์ฉ์ ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
The overview of PaLM
์ต๊ทผ์, ๊ฑฐ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ธ์ด ์ดํด์ ์์ฑ์ ๋ถ์ผ์์ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ค์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ์ค์๋ GPT-3๋ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ$($LLM$)$์ด few-shot-learning์ผ๋ก ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ์ด๋ค. ๊ทธ ์ดํ์, GLam, LaMDA ๋ฑ์ ๋๋ค๋ฅธ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ๋ค์ด, ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๊ณ , sparsely activatedํ๊ฒ ๋ฐ์ ํ๋ฉด์ ๋์ฑ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฌ๋, ๋ชจ๋ธ ๊ท๋ชจ์ ํ๊ณ๋ฅผ ๋ฐ์ด๋์ ๋์ few-shot learning์ผ๋ก ๋ํ๋๋ ๊ธฐ๋ฅ์ ์ดํดํ๋ ๋ฐ์๋ ๋ง์ ์์ ์ด ๋จ์์๋ค.
PaLM์ ์ฒ์ ์๊ฐํ ๋ ผ๋ฌธ์ธ 'PaLM: Scaling Language Modeling with Pathways'์์, ์ ์๋ค์ ๊ตฌ๊ธ์ด ์๋กญ๊ฒ ์ ์ํ ๋ฐฉ์์ธ Pathways๋ฅผ ํ์ฉํ ์ธ์ด ๋ชจ๋ธ์ธ PaLM์ ์๊ฐํ์๋ค. ์ด PaLM์ 5400์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ์ Pathways๋ฅผ ํตํด ํ์ต๋ dense decoder-only Transformer model๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ์ด๋ฌํ ๊ตฌ์กฐ์ Transformer๋ ํ๋์ ๋ชจ๋ธ์ ์ฌ๋ฌ ๊ฐ์ TPU v4 Pods ์์์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋ง๋ค์ด์คฌ๋ค. ์ด๋ ๊ฒ ํด์ ๋ง๋ค์ด์ง PaLM์ ์๋ฐฑ๊ฐ์ ์ธ์ด ์ดํด์ ์์ฑ task์ ๋ํด ํ๊ฐํด๋ณด์๊ณ , ๋๋ค์์ task์์ few-shot performance๊ฐ SOTA๋ฅผ ์ฐจ์งํ์๋ค. ์ฌ์ง์ด ์ด์ SOTA๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ผ๋ก ๋ง์ด๋ค!!
5400์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋ PaLM์ Pathways๋ก ํ์ต์ํค๊ธฐ
PaLM์ 6144๊ฐ์ ์นฉ์ ๊ฐ๋ ๊ฑฐ๋ํ TPU ๊ธฐ๋ฐ์ ์์คํ ๊ตฌ์กฐ์์ ํ์ต๋์๋ค. ํ์ต์ ๋ ๊ฐ์ Cloud TPU v4 Pods ๊ฐ์ ๋ฐ์ดํฐ ๋ณ๋ ฌํ๋ฅผ ํตํด ๊ท๋ชจ๋ฅผ ํค์ธ ์ ์์๋ค. ๋ฐ๋ฉด์, ๊ฐ๊ฐ์ Pod์์๋ ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ๋ณ๋ ฌํ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด๋ก ์ธํด ์ป๊ฒ ๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ ์ด์ ์ ํ๋์ TPU v3 Pod์์ ํ์ต๋ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ท๋ชจ์ ๋น๊ตํ์ ๋, ์์ฒญ๋ ์์น์ ๊ฐ์ ธ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
PaLM์ 57.8%์ ํ๋์จ์ด FLOPs ์ด์ฉ์ ๋ฌ์ฑํ์๋๋ฐ, ์ด๋ ์ด ๊ท๋ชจ์ LLM์์ ๋ฌ์ฑํ ์ต๊ณ ๊ธฐ๋ก์ด๋ค! ์ด๋ ๋ณ๋ ฌํ ์ ๋ต๊ณผ Transformer block์ ๋ณํ์ผ๋ก ์ธํ์ฌ attention๊ณผ feedforward layer๊ฐ ๋ณ๋ ฌ๋ก ๊ณ์ฐ๋ ์ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
PaLM์ ์์ด ์ธ์๋ ๋ค์ํ ์ธ์ด์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ต๋์๋๋ฐ, ์ฌ๊ธฐ์๋ ๋์ ํ๋ฆฌํฐ์ ๋ฌธ์, ์ฑ , ์ํคํผ๋์, ๋ํ๋ค, GitHub code๋ค์ด ํฌํจ๋์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ 'lossless'๋ผ๋ ์๋ก์ด vocabulary๋ฅผ ์์ฑํ๋๋ฐ, ์ฌ๊ธฐ์๋ ๋ชจ๋ whitespace๋ฅผ ๋ณด์กดํ๊ณ , Unicode character๋ก ํํํ ์ ์๋ character์ byte๋ก ์ชผ๊ฐ์ ์ ์ฅํ์๊ณ , ์ซ์๋ฅผ ๊ฐ ์ซ์์ ๋ํด ํ๋์ฉ ๊ฐ๋ณ ํ ํฐ์ผ๋ก ๋๋ ์ ์ ์ฅํ์๋ค.
Language Reasoning๊ณผ Cose Task์์์ ์์ฒญ๋ ๋ฐ์ !
PaLM์ ์ด๋ ค์ด ๋ค์ํ task์ ๋ํด์ ์์ฒญ๋๊ฒ ๋ฐ์ ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋์ language understanding๊ณผ generation, reasoning, code-related task์ ๋ํ ๋ช๊ฐ์ง ์์๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
Language Understanding & Generation
PaLM์ 29๊ฐ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์์ด NLP task์ ๋ํด ํ๊ฐํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, PaLM 540B๋ ์ด์ ๊ฑฐ๋ ๋ชจ๋ธ์ few-shot performance๋ฅผ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ 29๊ฐ ์ค 28๊ฐ์ task์ ๋ํด์ ๋ณด์ฌ์คฌ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ํ PaLM์ ์์ด NLP task์ค, ๋ฒ์ญ ๊ฐ์ multilingual NLP task์ ๋ํด์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํ์ต ๋ฐ์ดํฐ ์ค ์ค์ง 22% ์ ๋์ ๋ฐ์ดํฐ๋ง์ด ๋น์์ด ๋ฐ์ดํฐ ์์์๋ ๋ง์ด๋ค!
๋ํ, ๊ท๋ชจ ํจ์๋ก์ PaLM์ ์ฑ๋ฅ์ ์ด์ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ๋ก๊ทธ ์ ํ ๋ชจ์ ์ ๋ฐ๋ฅด๋ฉฐ ๊ท๋ชจ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฅ์์ด ์์ง ์ ์ฒด๋์ง ์์์์ ๋ํ๋ด์๋ค. PaLM 540B์ 5-shot์ ๋๊ฐ์ task์ ๋ํด ์ฌ๋์๊ฒ ๋ฌผ์์ ๋์ ํ๊ท ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
PaLM์ ์ฌ๋ฌ BIG-bench task์ ๋ํด ์ธ์์ ์ธ ์์ฐ์ด ์ดํด ๋ฐ ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค. ์๋ฅผ ๋ค์ด, PaLM์ ์์ธ๊ณผ ํจ๊ณผ๋ฅผ ์ดํดํ ์ ์๊ณ , ์ ์ ํ ๋งฅ๋ฝ์์ ๊ฐ๋ ์ ์กฐํฉ์ ์ดํดํ๊ณ , ์ด๋ชจ์ง๋ก๋ถํฐ ์ํ๋ฅผ ์๊ฐํด๋ผ ์๋ ์์๋ค $($์ด๊ฑฐ๋ ์ง์ง ์ ๊ธฐํ ๊ฒ ๊ฐ๋ค ๐ฎ$)$!!
Reasoning
๋ชจ๋ธ์ scale์ chain-thought prompting๊ณผ ๊ฒฐํฉํ๋ฉด, PaLM์ reasoning task์ ๋ํด์ ์์ฒญ๋๊ฒ ๋ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด reasoning task๋ ์ฌ๋ฌ ๋จ๊ณ์ ์๋ฆฌ์ ๋จ๊ณ ๋๋ ์ผ๋ฐ์ ์ธ reasoning์ ์๊ตฌํ๊ธฐ๋ ํ๋ค. ์ด์ ์ LLM๋ค์ ๋ชจ๋ธ์ scale์ ๋นํด ์ด๋ ๋คํ ๋ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ ๋ชปํ๋ค.
๊ทธ๋ฆฌ๊ณ chain-of-thopughts propting๊ณผ ๊ฒฐํฉํ PaLM 540B์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๊ด์ฐฐํ๊ธฐ ์ํด, ์ธ ๊ฐ์ ์๋ฆฌ์ ๋ฐ์ดํฐ์ ๊ณผ ๋ ๊ฐ์ commonsense reasoning task์ ๋ํด์๋ ์งํํด ๋ณด์๋ค. ์๋ฅผ ๋ค์ด, 8-shot prompting์ผ๋ก๋, PaLM์ ์ฌ๋ฌ ์ด๋ ค์ด ์ํ ๋ฌธ์ ๋ฅผ ํฌํจํ๊ณ ์๋ GSM8K ๋ฐ์ดํฐ์ ์ 58%์ ๋ฌํ๋ ๋ฌธ์ ๋ฅผ ํ์ด๋๋ค. ์ด๋ ์ด์ ์ ๊ฐ์ฅ ๋์ ์ ์์ธ 55%๋ฅผ ๋ฐ์ GPT-3๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ด๋ค. ์ฌ์ง์ด, GPT-3๋ ์ธ๋ถ์ ๊ณ์ฐ๊ธฐ์ verifier์ ์ด์ฉํ์๋ค.
์ด ์๋ก์ด ์ ์๊ฐ ํนํ ํฅ๋ฏธ๋ก์ด ๊ฒ์, 9์ธ์์ 12์ธ์ ์์ด๋ค์ด ํ๊ท ์ ์ผ๋ก 60%์ ๋ฌํ๋ ๋ฌธ์ ๋ฅผ ํผ๋ค๋ ์ ์ด๋ค. ์ฌ์ง์ด ์ด๋ค์ ์์ค์ ๋ง์ถฐ์ง ๋ฌธ์ ์์๋ ๋ถ๊ตฌํ๊ณ ๋ง์ด๋ค! ์ด๋ ๊ฒ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์๋ ์ด์ ๋ PaLM์ vocabulary๊ฐ ์ซ์๋ฅผ ๋ฐ๋ก ์ธ์ฝ๋ฉํ์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋ฆฌ๊ณ , PaLM์ ๊น์ ์ง์๊ณผ ์ฌ๋ฌ ๋จ๊ณ์ ์ถ๋ก ์ ์๊ตฌํ๋ ๋ฌธ์ ์ ๋ํด์๋ ์ ์ด๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ฒ ๋์๋์ง ์ค๋ช ํ ์ ์์๋ค. ์๋ฅผ ๋ค์ด, ์น์์๋ ์ฐพ์ ์ ์๋ ์๋ก์ด ์กฐํฌ๋ฅผ ์ดํดํ๊ณ ํด์ํ ์ ์์๋ค!
Other Results..
์ด ์ธ์๋ ๋ ๋ง์ ์์ ์คํ ๊ฒฐ๊ณผ๋ค์ ์ค๋ช ํ์ง๋ง, ๋ชจ๋ ์ ๊ธฐ์๋ ์์ด ์๋นํด์ ์ฃผ์ ๋ช ๊ฐ๋ง ๋ค๋ค๋ค. ์๋ฌดํผ ์ค์ํ๊ฒ ์๊ฐํด์ผ ํ๋ ๊ฒ์ PaLM์ด ์ด์ LLM๋ค๊ณผ ๋น๊ตํ์ ๋, ์์ฒญ๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค๋ ์ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ Reasoning์ ์ฌ์ฉ๋์๋ chain-of-thoughts prompt๋ ์ดํ์ ํฌ์คํธ์์๋ ํ ๋ฒ ๋ค๋ค๋ณด๋๋ก ํ๊ฒ ๋ค.
Conclusion
PaLM์ ์ ํ์ต๋๊ณ , ์ ๊ตฌ์กฐํ๋ dense decoder-only Transformer ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ 5400์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ์ต์ํด์ผ๋ก์จ ๋ ๊ฐ์ TPU v4 Pods์์ ์์ฒ ๊ฐ์ ๊ฐ์์ ์นฉ์ ๋ํ Pathways ์์คํ ์ ํ์ฅ ๊ธฐ๋ฅ์ ์์ฐํ์๋ค. model์ ๊ท๋ชจ๋ฅผ ๊ทนํ์ผ๋ก ๋ชฐ์๋ฃ์์ผ๋ก์จ PaLM์ few-shot performance์ ์์ฒญ๋ ๋ฐ์ ์ ๊ฐ์ ธ์ฌ ์ ์์๋ค. PaLM์ ํ์ฅ ๊ธฐ๋ฅ์ ์๋ก์ด ์ํคํ ์ฒ ์ ํ ๋ฐ ํ์ต ์ฒด๊ณ์ ๊ฒฐํฉํ์ฌ ํจ์ฌ ๋ ์ ๋ฅํ ๋ชจ๋ธ์ ์ํ ๊ธธ์ ์ด์ด Pathways์ ๋น์ ์ ๋์ฑ ๊ฐ๊น์ด ๋ค๊ฐ๊ฐ ์ ์๋ ๋ฌธ์ ์ด์ ๊ฒ์ด๋ค.
์ถ์ฒ
https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html