์ผ๋ง ์ ์ ๋ธ๋ก๊ทธ์ ๊ตฌ๊ธ์์ ์๊ฐํ PaLM์ ๋ํ ๋ฆฌ๋ทฐ ํฌ์คํธ๋ฅผ ์ฌ๋ ธ๋ ๊ธฐ์ต์ด ๋๋ค. ์์ฒญ๋ ์์ ํ๋ผ๋ฏธํฐ ์๋ก ์ธํด ๊น์ง ๋๋๋ ๊ธฐ์ต์ด ๋๋๋ฐ, ์ด์ ๋ ์ด PaLM์ด ๋์ฑ multimodal ์ค๋ฌ์์ก๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด์ ํ ์คํธ๋ฅผ ๋์ด์ ์ด๋ฏธ์ง๊น์ง๋ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ด ๋์ด๋ฒ๋ฆฐ PaLM-'E'์ ๋ํด์ ์์๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ณธ ํฌ์คํธ๋ ๋ ผ๋ฌธ๊ณผ ๊ตฌ๊ธ์ ์๊ฐ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค.
The overview of PaLM-E
์ต๊ทผ ๋ช ๋ ๋์ ๋จธ์ ๋ฌ๋์์๋ ์์ฒญ๋ ๋ฐ์ ์ ์ด๋ฃฉํ์๋ค. ์ด๋ ๊ฒ ๋ฐ์ ๋ ๋ชจ๋ธ๋ค์ ์กฐํฌ๋ฅผ ์ค๋ช ํ๊ฑฐ๋ ์๊ฐ์ ์ง๋ฌธ์ ์๋ตํ๋ ๋ฑ์ ๋ค์ํ ์ธ์ด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ๋์๋ค. ์ฌ์ง์ด๋ ํ ์คํธ ์ค๋ช ์ด ์ฃผ์ด์ง๋ฉด ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ด๊ธฐ๋ ํ๋ค! ๐ฒ ์ด๋ฌํ ํ์ ์ ํฐ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ์ฑ์ด ๋์ด๋๊ณ , ์๋ก์ด ๋ฐ์ ๋ค์ด ๋ชจ๋ธ์ด ์ด๋ฌํ ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ์ ์๊ฒ ํด์คฌ๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํ๋ค๊ณ ๋ณผ ์ ์๋ค. ํ์ง๋ง robotic model๋ค์ ๋ช๋ช ์ฑ๊ณต ์ฌ๋ก๋ค์ ๋ณด์ด๊ณ ์๋ ๋ฐ๋ฉด์, ํฐ ํ ์คํธ corpora ๋๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋ถ์กฑ์ผ๋ก ๋ค๋ฅธ ๋๋ฉ์ธ์ ๋นํด ์์ง๋ฌ ๋๊ฐ๊ณ ์์ด ๋ณด์ด๊ณ ์๋ค.
๊ทธ๋์ ๊ตฌ๊ธ์์ ์๊ฐํ ๋ค์ํ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์์ญ์ผ๋ก ์ป์ ์ง์์ robotic ์์คํ ์ ์ ๋ฌํจ์ผ๋ก์จ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ค๋ฐฉ๋ฉด์ผ๋ก ๋ฐ์ด๋ robotic model์ด ๋ฐ๋ก PaLM-E์ด๋ค. PaLM-E๋ ๊ฐ๋ ฅํ LLM์ธ PaLM์ robotic ์์ด์ ํธ๋ก๋ถํฐ ์ป์ ์ผ์ ๋ฐ์ดํฐ๋ก ๋ณด์ํจ์ผ๋ก์จ "๊ตฌ์ฒดํ$($embodied$)$"ํ ๊ฒ์ด๋ค. ์ด๊ฒ์ด ๊ธฐ์กด์ LLM์ robotic์ผ๋ก ๊ฐ์ ธ์ค๋ ค๋ ์๋๋ค๊ณผ์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ด๋ค. ์ค์ง text input์๋ง ์์กดํ๊ธฐ ๋ณด๋ค๋, PaLM-E์ ์ฌ์ฉํ์ฌ ๋ก๋ด ์ผ์ ๋ฐ์ดํฐ์ raw stream์ ์ง์ ์์งํ๋๋ก LM์ ํ์ต์์ผฐ๋ค. ๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ ๋ก๋ด ํ์ต์์ ๋ฐ์ด๋ ๋ฟ๋ง ์๋๋ผ ์ผ๋ฐ์ ์ธ ๋ชฉ์ ์ visual-language-model์์ ํ๋ฅญํ language-only task ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค.
An Embodied language model, and also a visual-language generalist
ํํธ์ผ๋ก PaLM-E๋, robotic์ ์ํ ๋ชจ๋ธ๋ก ๊ฐ๋ฐ๋์๊ณ , ๋ค์ํ ์ ํ์ ๋ก๋ด๊ณผ ์ฌ๋ฌ ์์์ ๋ํ ๋ค์ํ ์์ ์ ํด๊ฒฐํ๋ค. ๋์์ PaLM-E๋ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๋ฅํ vision-language-model์ด๋ค. PaLM-E๋ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๊ฑฐ๋ ์ฌ๋ฌผ์ ์ธ์ํ๊ณ , ์ฅ๋ฉด์ ๋ถ๋ฅํ๋ ๋ฑ์ visual task๋ ์ํ ๊ฐ๋ฅํ๊ณ , ์ ์ธ์ฉ ๋๋ ์ํ ๋ฐฉ์ ์์ ํ๊ฑฐ๋ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฑ์ language task๋ ์ํ ๊ฐ๋ฅํ๋ค.
PaLM-E๋ ๊ตฌ๊ธ์์ ๊ฐ์ฅ ์ต๊ทผ์ ์๊ฐํ LLM์ธ PaLM๊ณผ ๊ฐ์ฅ ๋ฐ์ ๋ vision model์ธ ViT-22B๋ฅผ ๊ฒฐํฉํ์๋ค. ์ด ๋ฐฉ์์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ PaLM-540B๋ก ๋ง๋ค์ด์ง PaLM-E-562B์ด๊ณ , ์ด๋ ํ task-specific fine-tuning ์์ด visual-language OK-VQA ๋ฒค์น๋งํฌ์์ ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ธฐ๋ณธ์ ์ผ๋ก PaLM-540B์ ๋์ผํ ์ธ์ด ์ฑ๋ฅ์ ์ ์งํ์๋ค.
PaLM-E์ ์ฃผ๋ contributuon์ ๋ค์๊ณผ ๊ฐ๋ค.
- embodied ๋ฐ์ดํฐ๋ฅผ multimodal LLM์ ํ์ต์ ํผํฉํด ๋ฒ์ฉ์ ๋ชจ๋ธ, ์ ์ด ํ์ต, ๋ค์ค ๊ตฌํ ์์ฌ ๊ฒฐ์ ์์ด์ ํธ๋ฅผ ๊ต์กํ ์ ์์.
- ํ์ฌ SOTA visual-language model์ zero-shot ์ถ๋ก ๋ฌธ์ ๋ฅผ ์ ๋ค๋ฃจ์ง ๋ชป ํจ. ํ์ง๋ง, ์ ๋ฅํ ๋ฒ์ฉ visual-language model์ ํ๋ จํ๋ ๊ฒ์ด ๊ฐ๋ฅํจ.
- neural scene representation๊ณผ entity-labeling multimodal token ๊ฐ์ ์๋ก์ด architecture์ ์ ์ํ์์.
- PaLM-E๋ visual๊ณผ language๊ณผ ๊ฐ์ด ๋ค๋ฐฉ๋ฉด์ ๋ํด์ ์ง์ ์ผ๋ก ์ ๋งํ ๋ชจ์ต์ ๋ณด์ฌ์ค.
- ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ ์ catastophic fogetting๊ณผ ํจ๊ป multimodal fine-tuning์ ๊ฐ๋ฅํ๊ฒ ํจ.
How does PaLM-E work?
๊ธฐ์ ์ ์ผ๋ก PaLM-E๋ observation์ pre-trained LM์ ์ฃผ์ ํจ์ผ๋ก์จ ์๋ํ์๋ค. ์ด๊ฒ์ ์ด๋ฏธ์ง์ ๊ฐ์ ์ผ์ ๋ฐ์ดํฐ๋ฅผ LM์ ์ํด ์์ฐ์ด์ ๋จ์ด๊ฐ ์ฒ๋ฆฌ๋๋ ๊ฒ๊ณผ ๋น์ทํ ํ๋ก์์ ๋ก ๋ณํํจ์ผ๋ก์จ ์คํ์ํฌ ์ ์์๋ค.
LM์ text๋ฅผ ์ ๊ฒฝ๋ง์ด ์ฒ๋ฆฌํ ์ ์๋๋ก ์ํ์ ์ผ๋ก ํํํ๋ ๋ฉ์ปค๋์ฆ์ ์์กดํ๋ค. ์ด๊ฒ์ ๋จผ์ text๋ฅผ subword๋ฅผ ์ธ์ฝ๋ํ๋ so-called token์ผ๋ก ๋ถํ ํ์ฌ ๋ฌ์ฑ๋๋ฉฐ, ๊ฐ ํ ํฐ์ ์ซ์์ ๊ณ ์ฐจ์ ๋ฒกํฐ, ํ ํฐ ์๋ฒ ๋ฉ๊ณผ ์ฐ๊ด๋์ด ์๋ค. LM์ ์ํ์ ์ฐ์ฐ$($ํ๋ ฌ๊ณฑ ๊ฐ์$)$์ ๊ฒฐ๊ณผ๋ก ๋์จ ๋ฒกํฐ์ ์ํ์ค์ ์ ์ฉํด์ ๋ค์์ ์ฌ ๊ฒ ๊ฐ์ word token์ ์์ธกํ๋ค. ๊ทธ๋ฆฌ๊ณ ์๋กญ๊ฒ ์์ธก๋ word๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์, LM์ ๋ฐ๋ณต์ ์ผ๋ก ๋์ฑ ๋ ๊ธด text๋ฅผ ์์ฑํ ์ ์๋ค.
PaLM-E์ ์ ๋ ฅ์ ์์์ ์์๋ก ๋ text ๋ฐ ๊ธฐํ ์์$($์ด๋ฏธ์ง, robot states, scene embedding ๋ฑ$)$์ด๋ฉฐ, ์ด๋ฅผ "multimodal sentences"๋ผ๊ณ ํ๋ค. ์๋ฅผ ๋ค์ด ์ ๋ ฅ์ "<img_1>๊ณผ <img_2> ์ฌ์ด์ ๋ฌด์จ ์ผ์ด ๋ฐ์ํ๋์?"์ ํํ๋ฅผ ๋๋ค. ์ฌ๊ธฐ์ <img_1>๊ณผ <img_2>๋ ๋ ๊ฐ์ ์ด๋ฏธ์ง์ด๋ค. ์ถ๋ ฅ์ PaLM-E์ ์ํด auto-regressivelyํ๊ฒ ์์ฑ๋ text์ด๋ค. ์ด๊ฒ์ ์ง๋ฌธ์ ๋๋ต์ผ ์๋ ์๊ณ , text form์์ ๊ฒฐ์ ์ ์ํ์ค์ผ ์๋ ์๋ค.
PaLM-E์ ์์ด๋์ด๋ ๋ค์ํ ์ ๋ ฅ์ ์์ฐ์ด ๋จ์ด ํ ํฐ ์๋ฒ ๋ฉ์ฒ๋ผ ๋๊ฐ์ ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ encoder๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ฐ์ ์ ๋ ฅ์ "words"์ ์ ์ฌํ ๊ฒ์ผ๋ก ๋งคํ๋๋ค. $($๋น๋ก ์ด๋ค์ ๋ณ๊ฐ์ ์ธํธ๋ฅผ ํ์ฑํ ํ์๊ฐ ์์$)$ word์ image embedding ๋์ ๋๊ฐ์ ์ฐจ์์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ์ด๋ค์ LM์ ์ฌ์ฉ๋ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ language(PaLM) ๋ฐ vision(ViT) ๋ชจ๋์ ๋ํด pre-trained model์ ์ฌ์ฉํ์ฌ ํ์ต์ ์ํด PaLM-E๋ฅผ ์ด๊ธฐํํ์๋ค. ๋ชจ๋ธ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ ํ์ต ์ค์ ์ ๋ฐ์ดํธ๋ ์ ์๋ค.
Transferring knowledge from large-scale training to robots
PaLM-E๋ ๋ค๋ฐฉ๋ฉด์ผ๋ก ๋ฐ์ด๋ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ๊ณตํ์๋ค. ์ด ํจ๋ฌ๋ค์์ robot task์ vision-language task๋ฅผ ํจ๊ป ํ๋์ ์ผ๋ฐ์ ์ธ representation์ ํ๋ก ๋ฃ์์ผ๋ก์จ ๋ฌ์ฑํ์๋ค: text์ image๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์, text๋ฅผ ์ถ๋ ฅ. ์ค์ํ ๊ฒฐ๊ณผ๋ PaLM-E๊ฐ ์๋นํ ๊ธ์ ์ ์ธ ์ง์ ์ ๋ฌ์ vision๊ณผ language ์์ญ์ผ๋ก๋ถํฐ ์ป์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๋ก๋ด ํ์ต์ ํจ๊ณผ๋ฅผ ํฅ์์์ผฐ๋ค.
๊ฒฐ๊ณผ๋ค์ PaLM-E๊ฐ robotics, vision, language task์ ๊ฑฐ๋ํ ์ธํธ๋ฅผ ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ task์ ๋ํด ํ์ตํ๋ ๊ฒ์ ๋นํ์ฌ ์ฑ๋ฅ์ ์ ํ ์์ด ๋์์ ํด๊ฒฐํ ์ ์์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ถ๊ฐ์ ์ผ๋ก, visual-language ๋ฐ์ดํฐ๋ robot task์ ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํจ๋ค. ์ด๋ฌํ ์ ๋ฌ์ ํตํด PaLM-E๋ task๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ํ์ํ example ์ ์ธก๋ฉด์์ ๋ก๋ด ์์ ์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค.
Results
๋ ผ๋ฌธ์์๋ PaLM-E๋ฅผ 3๊ฐ์ robotic ํ๊ฒฝ์์ ํ๊ฐํ์๊ณ , ๊ทธ ์ค์ ๋ ๊ฐ๋ ์ค์ ๋ก๋ด์ ํฌํจํ๊ณ ์๋ค. ๋ฟ๋ง ์๋๋ผ visual question answering(VQA), ์ด๋ฏธ์ง ์บก์ ๋, ์ผ๋ฐ์ ์ธ language task ๊ฐ์ ์ผ๋ฐ์ ์ธ vision-language task์ ๋ํด์๋ ํ๊ฐ๋ฅผ ์งํํ์๋ค. PaLM-E๊ฐ ๋ก๋ด์ ๋ํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ task๋ฅผ ์ํํ ๋ ํ ์คํธ๋ฅผ ํ์ ์์ค์ ๋ก๋ด ๋์์ผ๋ก ๋ณํํ๊ธฐ ์ํด ํ์ ์์ค language-visual ์ ์ฑ ๊ณผ ์์ ์ด๋ฃจ๊ฒ ํ์๋ค.
์๋์ ์ฒซ ๋ฒ์งธ ์์๋ ์ฌ๋์ด ๋ชจ๋ฐ์ผ ๋ก๋ด์๊ฒ ์นฉ ํ ๋ด์ง๋ฅผ ๊ฐ์ ธ์ค๊ฒ ์ํค๋ ์์์ด๋ค. task๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์๋ฃํ๊ธฐ ์ํด, PaLM-E๋ ์๋์ ์ฐพ๊ณ ์ฌ๋ ๊ณํ์ ์ธ์ฐ๊ณ task๋ฅผ ์ํํ๋ ๊ฒ์ฒ๋ผ ๊ณํ์ ์ ๋ฐ์ดํธํจ์ผ๋ก์จ ์ธ์์ ๋ณํ์ ๋์ํ๊ฒ ํ์๋ค. ๋ ๋ฒ์งธ ์์์์๋, ๋ก๋ด์๊ฒ ์ด๋ก์ ๋ธ๋ก์ ์ง๊ฒ ํ์๋ค. ๋ง์ฝ ๋ก๋ด์๊ฒ ๋ธ๋ก์ด ๋ณด์ด์ง ์๋๋ผ๋, PaLM-E๋ ๊ณ์ ๋ก๋ด์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ผ๋ฐํํ๋ step-by-step ๊ณํ์ ์์ฑํ๋ค.
์๋ ๊ทธ๋ฆผ์ ๋ ๋ฒ์งธ ํ๊ฒฝ์์ ๋์ผํ PaLM-E ๋ชจ๋ธ์ ๋ค๋ฅธ ์ ํ์ ๋ก๋ด์์ "์์๋ณ๋ก ๋ธ๋ก์ ๋ชจ์๋ฆฌ๋ก ์ ๋ ฌ"๊ณผ ๊ฐ์ ๋งค์ฐ ๊ธธ๊ณ ์ ํํ ์์ ์ ํด๊ฒฐํ๋ค. ์ด๊ฒ์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๋ ์งง์ textually-represented action์ ์ํ์ค๋ฅผ ์์ฑํ๋ค. ์๋ฅผ ๋ค์ด "ํ๋์ ํ๋ธ๋ฅผ ์๋ ์ค๋ฅธ์ชฝ ์ฝ๋์ ๋ฐ์ด๋ฌ๋ผ.", "ํ๋์ ์ผ๊ฐํ๋ ๊ฐ์ด ๋ฐ์ด๋ฌ๋ผ." ์ ๊ฐ์ด ๋ง์ด๋ค. ์ฅ๊ธฐ์ ์ธ ๊ณผ์ ๋ ์์จ์ ์ธ ์์ฑ์ ๋ฒ์์์ ๋ฒ์ด๋๋ค. ๋ํ ๋นจ๊ฐ์ ๋ธ๋ก์ ์ปคํผ ์ปต์ ๋ฐ์ด๋ฃ๋ ๊ฒ๊ณผ ๊ฐ์ด ํ์ต ์๊ฐ ๋์ ๋ณผ ์ ์์๋ ์๋ก์ด task$($์ ๋ก์ท ์ผ๋ฐํ$)$๋ก ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค.
์ธ ๋ฒ์งธ ๋ก๋ด ํ๊ฒฝ์ ๋งค์ฐ ๋ง์ ์์ ๊ฐ๋ฅํ ํ๋ ์์๋ก ๋ก๋ด์ ์ง๋ฉดํ๋ ์กฐํฉ์ ์ผ๋ก ๋์ ์ ์ธ ๊ณํ task๋ฅผ ์ฐ๊ตฌํ๋ task and motion planning$($TAMP$)$์ ํ๋๋ก๋ถํฐ ์๊ฐ์ ๋ฐ์๋ค. ์ ๋ฌธ๊ฐ TAMP planner๋ก๋ถํฐ ์ป์ ๋ณดํต์ ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ PaLM-E๋ ์ด task๋ฅผ ํด๊ฒฐํ ๋ฟ๋ง ์๋๋ผ ๋ํ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด visual ๋ฐ language ์ง์ ์ ๋ฌ์ ํ์ฉํ๋ค.
visual-language ๋ค๋ฐฉ๋ฉด์ ๋ฐ์ด๋ ๋ชจ๋ธ๋ก์จ PaLM-E๋ ์ต๊ณ ์ vision-language-only ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ๋ ๊ฒฝ์๋ ฅ์๋ ๋ชจ๋ธ์ด๋ค. ํนํ, PaLME-E-562B๋ ์ด๋ ค์ด OK-VQA ๋ฐ์ดํฐ์ ์ ๋ํด ์ต๊ณ ์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์๋ค. ์ด task๋ ์๊ฐ์ ์ดํด ๋ฟ๋ง ์๋๋ผ ์ธ์์ ์ธ๋ถ์ ์ธ ์ง์๋ ํ์๋ก ํ๋ค. ๋ํ ์ด ๊ฒฐ๊ณผ๋ ํน์ task์ ๋ํด์๋ง fine-tuningํ์ง ์๊ณ ์ผ๋ฐ ๋ชจ๋ธ๋ก ๋๋ฌํ์๋ค.
Conclusion
PaLM-E๋ ์ด๋ป๊ฒ generally-capable model์ด vision๊ณผ language, robotic์ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ตํ ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๋ ๋์์ ์๊ฐ ๋ฐ ์ธ์ด์์ robotic ์์ญ์ผ๋ก ์ง์์ ์ ๋ฌํ ์ ์๊ฒ ํ์๋ค. ๋ ผ๋ฌธ์๋ ์ถ๊ฐ์ ์ธ ์ฃผ์ ๋ค์ ๋ํ ์ผ์ ๋ํด์ ๋ค๋ฃจ๊ณ ์์ผ๋ ํ ๋ฒ ํ์ธํด๋ณด๊ธธ ๋ฐ๋๋ค.
PaLM-E๋ ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค๋ก๋ถํฐ ์ด์ ์ ์ป์ ์ ์๋ ๋ ์ ๋ฅํ ๋ก๋ด์ ๊ตฌ์ถํ ์ ์๋ ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํ ๋ฟ๋ง ์๋๋ผ ์ง๊ธ๊น์ง ๋ถ๋ฆฌ๋ ๊ฒ์ฒ๋ผ ๋ณด์๋ ์์ ์ ํตํฉํ๋ ๊ธฐ๋ฅ์ ํฌํจํ์ฌ multimodal ํ์ต์ ์ฌ์ฉํ๋ ๋ค๋ฅธ ๊ด๋ฒ์ํ ์์ฉ ํ๋ก๊ทธ๋จ์ ๋ํ ํต์ฌ enabler๊ฐ ๋ ์ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2303.03378
https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html