๊ตฌ๊ธ์ ํ์ ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ ์ธ์ด ๋ชจ๋ธ์ธ LaMDA๋ฅผ ๋ฐํํ๊ณ ์ผ๋ง ์ง๋์ง ์์์, ๋ฐ๋ก ์ด๋ฅผ ๋ฅ๊ฐํด๋ฒ๋ฆฌ๋ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ธ PaLM์ ๊ณต๊ฐํ์๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด PaLM์ ๋ํด์ ๋ฆฌ๋ทฐํด๋ณด์๊ณ , ๊ตฌ๊ธ์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์๋ค. $($๋ ผ๋ฌธ์ด ๋๋ฌด ๊ธธ์ด์ ์ฝ๊ธฐ๊ฐ ๋๋ฌด ํ๋๋ค์,, ๐ $)$ PaLM์ ๋ํ ๋ฆฌ๋ทฐ๋ ์ด ๋ ๊ฐ์ ํฌ์คํธ๋ก ๋๋ ์ ์งํํ์์ต๋๋ค. ์ด ํฌ์คํธ์ธ ์ฒซ ๋ฒ์งธ ํฌ์คํธ์์๋ ์์ ๋งํ ๊ฒ์ฒ๋ผ ๊ตฌ๊ธ์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ PaLM์ ๋๋ต์ ์ธ ์ค๋ช ๊ณผ ์คํ ๊ฒฐ๊ณผ๋ค์ ๋ํด ๋ค๋ค๊ณ , ๋ ๋ฒ์งธ ํฌ์คํธ์์๋ PaLM์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ํด์ ๋ค๋ค๋ณผ ์์ ์ ๋๋ค!! ๋ง์ ๊ด์ฌ ๋ถํ๋๋ฆฝ๋๋ค!!
PaLM์ 'Pathways Language Model'์ ์ฝ์๋ก, ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด ๊ตฌ๊ธ์์ ์๊ฐํ Pathways๋ผ๋ ๊ฐ๋ ์ด ์ฌ์ฉ๋ ๋ชจ๋ธ์ด๋ค. ๋ฐ๋ผ์, ์ด Pathways์ ๋ํ ๊ฐ๋จํ ์ดํด๊ฐ ํ์ํ๋ฐ, ์ด์ ๋ํ ๋ด์ฉ์ ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
The overview of PaLM
์ต๊ทผ์, ๊ฑฐ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ธ์ด ์ดํด์ ์์ฑ์ ๋ถ์ผ์์ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ค์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ์ค์๋ GPT-3๋ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ$($LLM$)$์ด few-shot-learning์ผ๋ก ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ์ด๋ค. ๊ทธ ์ดํ์, GLam, LaMDA ๋ฑ์ ๋๋ค๋ฅธ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ๋ค์ด, ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๊ณ , sparsely activatedํ๊ฒ ๋ฐ์ ํ๋ฉด์ ๋์ฑ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฌ๋, ๋ชจ๋ธ ๊ท๋ชจ์ ํ๊ณ๋ฅผ ๋ฐ์ด๋์ ๋์ few-shot learning์ผ๋ก ๋ํ๋๋ ๊ธฐ๋ฅ์ ์ดํดํ๋ ๋ฐ์๋ ๋ง์ ์์ ์ด ๋จ์์๋ค.
PaLM์ ์ฒ์ ์๊ฐํ ๋ ผ๋ฌธ์ธ 'PaLM: Scaling Language Modeling with Pathways'์์, ์ ์๋ค์ ๊ตฌ๊ธ์ด ์๋กญ๊ฒ ์ ์ํ ๋ฐฉ์์ธ Pathways๋ฅผ ํ์ฉํ ์ธ์ด ๋ชจ๋ธ์ธ PaLM์ ์๊ฐํ์๋ค. ์ด PaLM์ 5400์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ์ Pathways๋ฅผ ํตํด ํ์ต๋ dense decoder-only Transformer model๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ์ด๋ฌํ ๊ตฌ์กฐ์ Transformer๋ ํ๋์ ๋ชจ๋ธ์ ์ฌ๋ฌ ๊ฐ์ TPU v4 Pods ์์์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋ง๋ค์ด์คฌ๋ค. ์ด๋ ๊ฒ ํด์ ๋ง๋ค์ด์ง PaLM์ ์๋ฐฑ๊ฐ์ ์ธ์ด ์ดํด์ ์์ฑ task์ ๋ํด ํ๊ฐํด๋ณด์๊ณ , ๋๋ค์์ task์์ few-shot performance๊ฐ SOTA๋ฅผ ์ฐจ์งํ์๋ค. ์ฌ์ง์ด ์ด์ SOTA๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ผ๋ก ๋ง์ด๋ค!!
5400์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋ PaLM์ Pathways๋ก ํ์ต์ํค๊ธฐ
PaLM์ 6144๊ฐ์ ์นฉ์ ๊ฐ๋ ๊ฑฐ๋ํ TPU ๊ธฐ๋ฐ์ ์์คํ ๊ตฌ์กฐ์์ ํ์ต๋์๋ค. ํ์ต์ ๋ ๊ฐ์ Cloud TPU v4 Pods ๊ฐ์ ๋ฐ์ดํฐ ๋ณ๋ ฌํ๋ฅผ ํตํด ๊ท๋ชจ๋ฅผ ํค์ธ ์ ์์๋ค. ๋ฐ๋ฉด์, ๊ฐ๊ฐ์ Pod์์๋ ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ๋ณ๋ ฌํ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด๋ก ์ธํด ์ป๊ฒ ๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ ์ด์ ์ ํ๋์ TPU v3 Pod์์ ํ์ต๋ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ท๋ชจ์ ๋น๊ตํ์ ๋, ์์ฒญ๋ ์์น์ ๊ฐ์ ธ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
PaLM์ 57.8%์ ํ๋์จ์ด FLOPs ์ด์ฉ์ ๋ฌ์ฑํ์๋๋ฐ, ์ด๋ ์ด ๊ท๋ชจ์ LLM์์ ๋ฌ์ฑํ ์ต๊ณ ๊ธฐ๋ก์ด๋ค! ์ด๋ ๋ณ๋ ฌํ ์ ๋ต๊ณผ Transformer block์ ๋ณํ์ผ๋ก ์ธํ์ฌ attention๊ณผ feedforward layer๊ฐ ๋ณ๋ ฌ๋ก ๊ณ์ฐ๋ ์ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
PaLM์ ์์ด ์ธ์๋ ๋ค์ํ ์ธ์ด์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ต๋์๋๋ฐ, ์ฌ๊ธฐ์๋ ๋์ ํ๋ฆฌํฐ์ ๋ฌธ์, ์ฑ , ์ํคํผ๋์, ๋ํ๋ค, GitHub code๋ค์ด ํฌํจ๋์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ 'lossless'๋ผ๋ ์๋ก์ด vocabulary๋ฅผ ์์ฑํ๋๋ฐ, ์ฌ๊ธฐ์๋ ๋ชจ๋ whitespace๋ฅผ ๋ณด์กดํ๊ณ , Unicode character๋ก ํํํ ์ ์๋ character์ byte๋ก ์ชผ๊ฐ์ ์ ์ฅํ์๊ณ , ์ซ์๋ฅผ ๊ฐ ์ซ์์ ๋ํด ํ๋์ฉ ๊ฐ๋ณ ํ ํฐ์ผ๋ก ๋๋ ์ ์ ์ฅํ์๋ค.
Language Reasoning๊ณผ Cose Task์์์ ์์ฒญ๋ ๋ฐ์ !
PaLM์ ์ด๋ ค์ด ๋ค์ํ task์ ๋ํด์ ์์ฒญ๋๊ฒ ๋ฐ์ ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋์ language understanding๊ณผ generation, reasoning, code-related task์ ๋ํ ๋ช๊ฐ์ง ์์๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
Language Understanding & Generation
PaLM์ 29๊ฐ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์์ด NLP task์ ๋ํด ํ๊ฐํด๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ, PaLM 540B๋ ์ด์ ๊ฑฐ๋ ๋ชจ๋ธ์ few-shot performance๋ฅผ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ 29๊ฐ ์ค 28๊ฐ์ task์ ๋ํด์ ๋ณด์ฌ์คฌ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ํ PaLM์ ์์ด NLP task์ค, ๋ฒ์ญ ๊ฐ์ multilingual NLP task์ ๋ํด์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ํ์ต ๋ฐ์ดํฐ ์ค ์ค์ง 22% ์ ๋์ ๋ฐ์ดํฐ๋ง์ด ๋น์์ด ๋ฐ์ดํฐ ์์์๋ ๋ง์ด๋ค!
๋ํ, ๊ท๋ชจ ํจ์๋ก์ PaLM์ ์ฑ๋ฅ์ ์ด์ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ๋ก๊ทธ ์ ํ ๋ชจ์ ์ ๋ฐ๋ฅด๋ฉฐ ๊ท๋ชจ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฅ์์ด ์์ง ์ ์ฒด๋์ง ์์์์ ๋ํ๋ด์๋ค. PaLM 540B์ 5-shot์ ๋๊ฐ์ task์ ๋ํด ์ฌ๋์๊ฒ ๋ฌผ์์ ๋์ ํ๊ท ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
PaLM์ ์ฌ๋ฌ BIG-bench task์ ๋ํด ์ธ์์ ์ธ ์์ฐ์ด ์ดํด ๋ฐ ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค. ์๋ฅผ ๋ค์ด, PaLM์ ์์ธ๊ณผ ํจ๊ณผ๋ฅผ ์ดํดํ ์ ์๊ณ , ์ ์ ํ ๋งฅ๋ฝ์์ ๊ฐ๋ ์ ์กฐํฉ์ ์ดํดํ๊ณ , ์ด๋ชจ์ง๋ก๋ถํฐ ์ํ๋ฅผ ์๊ฐํด๋ผ ์๋ ์์๋ค $($์ด๊ฑฐ๋ ์ง์ง ์ ๊ธฐํ ๊ฒ ๊ฐ๋ค ๐ฎ$)$!!
Reasoning
๋ชจ๋ธ์ scale์ chain-thought prompting๊ณผ ๊ฒฐํฉํ๋ฉด, PaLM์ reasoning task์ ๋ํด์ ์์ฒญ๋๊ฒ ๋ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด reasoning task๋ ์ฌ๋ฌ ๋จ๊ณ์ ์๋ฆฌ์ ๋จ๊ณ ๋๋ ์ผ๋ฐ์ ์ธ reasoning์ ์๊ตฌํ๊ธฐ๋ ํ๋ค. ์ด์ ์ LLM๋ค์ ๋ชจ๋ธ์ scale์ ๋นํด ์ด๋ ๋คํ ๋ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ ๋ชปํ๋ค.
๊ทธ๋ฆฌ๊ณ chain-of-thopughts propting๊ณผ ๊ฒฐํฉํ PaLM 540B์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๊ด์ฐฐํ๊ธฐ ์ํด, ์ธ ๊ฐ์ ์๋ฆฌ์ ๋ฐ์ดํฐ์ ๊ณผ ๋ ๊ฐ์ commonsense reasoning task์ ๋ํด์๋ ์งํํด ๋ณด์๋ค. ์๋ฅผ ๋ค์ด, 8-shot prompting์ผ๋ก๋, PaLM์ ์ฌ๋ฌ ์ด๋ ค์ด ์ํ ๋ฌธ์ ๋ฅผ ํฌํจํ๊ณ ์๋ GSM8K ๋ฐ์ดํฐ์ ์ 58%์ ๋ฌํ๋ ๋ฌธ์ ๋ฅผ ํ์ด๋๋ค. ์ด๋ ์ด์ ์ ๊ฐ์ฅ ๋์ ์ ์์ธ 55%๋ฅผ ๋ฐ์ GPT-3๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ด๋ค. ์ฌ์ง์ด, GPT-3๋ ์ธ๋ถ์ ๊ณ์ฐ๊ธฐ์ verifier์ ์ด์ฉํ์๋ค.
์ด ์๋ก์ด ์ ์๊ฐ ํนํ ํฅ๋ฏธ๋ก์ด ๊ฒ์, 9์ธ์์ 12์ธ์ ์์ด๋ค์ด ํ๊ท ์ ์ผ๋ก 60%์ ๋ฌํ๋ ๋ฌธ์ ๋ฅผ ํผ๋ค๋ ์ ์ด๋ค. ์ฌ์ง์ด ์ด๋ค์ ์์ค์ ๋ง์ถฐ์ง ๋ฌธ์ ์์๋ ๋ถ๊ตฌํ๊ณ ๋ง์ด๋ค! ์ด๋ ๊ฒ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์๋ ์ด์ ๋ PaLM์ vocabulary๊ฐ ์ซ์๋ฅผ ๋ฐ๋ก ์ธ์ฝ๋ฉํ์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋ฆฌ๊ณ , PaLM์ ๊น์ ์ง์๊ณผ ์ฌ๋ฌ ๋จ๊ณ์ ์ถ๋ก ์ ์๊ตฌํ๋ ๋ฌธ์ ์ ๋ํด์๋ ์ ์ด๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ฒ ๋์๋์ง ์ค๋ช ํ ์ ์์๋ค. ์๋ฅผ ๋ค์ด, ์น์์๋ ์ฐพ์ ์ ์๋ ์๋ก์ด ์กฐํฌ๋ฅผ ์ดํดํ๊ณ ํด์ํ ์ ์์๋ค!
Other Results..
์ด ์ธ์๋ ๋ ๋ง์ ์์ ์คํ ๊ฒฐ๊ณผ๋ค์ ์ค๋ช ํ์ง๋ง, ๋ชจ๋ ์ ๊ธฐ์๋ ์์ด ์๋นํด์ ์ฃผ์ ๋ช ๊ฐ๋ง ๋ค๋ค๋ค. ์๋ฌดํผ ์ค์ํ๊ฒ ์๊ฐํด์ผ ํ๋ ๊ฒ์ PaLM์ด ์ด์ LLM๋ค๊ณผ ๋น๊ตํ์ ๋, ์์ฒญ๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค๋ ์ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ Reasoning์ ์ฌ์ฉ๋์๋ chain-of-thoughts prompt๋ ์ดํ์ ํฌ์คํธ์์๋ ํ ๋ฒ ๋ค๋ค๋ณด๋๋ก ํ๊ฒ ๋ค.
Conclusion
PaLM์ ์ ํ์ต๋๊ณ , ์ ๊ตฌ์กฐํ๋ dense decoder-only Transformer ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ 5400์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ์ต์ํด์ผ๋ก์จ ๋ ๊ฐ์ TPU v4 Pods์์ ์์ฒ ๊ฐ์ ๊ฐ์์ ์นฉ์ ๋ํ Pathways ์์คํ ์ ํ์ฅ ๊ธฐ๋ฅ์ ์์ฐํ์๋ค. model์ ๊ท๋ชจ๋ฅผ ๊ทนํ์ผ๋ก ๋ชฐ์๋ฃ์์ผ๋ก์จ PaLM์ few-shot performance์ ์์ฒญ๋ ๋ฐ์ ์ ๊ฐ์ ธ์ฌ ์ ์์๋ค. PaLM์ ํ์ฅ ๊ธฐ๋ฅ์ ์๋ก์ด ์ํคํ ์ฒ ์ ํ ๋ฐ ํ์ต ์ฒด๊ณ์ ๊ฒฐํฉํ์ฌ ํจ์ฌ ๋ ์ ๋ฅํ ๋ชจ๋ธ์ ์ํ ๊ธธ์ ์ด์ด Pathways์ ๋น์ ์ ๋์ฑ ๊ฐ๊น์ด ๋ค๊ฐ๊ฐ ์ ์๋ ๋ฌธ์ ์ด์ ๊ฒ์ด๋ค.
์ถ์ฒ
https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance
Posted by Sharan Narang and Aakanksha Chowdhery, Software Engineers, Google Research In recent years, large neural networks trained for language understanding and generation have achieved impressive results across a wide range of tasks. GPT-3 first showed
ai.googleblog.com