์ผ๋ง ์ ์ ๋ธ๋ก๊ทธ์ ๊ตฌ๊ธ์์ ์๊ฐํ PaLM์ ๋ํ ๋ฆฌ๋ทฐ ํฌ์คํธ๋ฅผ ์ฌ๋ ธ๋ ๊ธฐ์ต์ด ๋๋ค. ์์ฒญ๋ ์์ ํ๋ผ๋ฏธํฐ ์๋ก ์ธํด ๊น์ง ๋๋๋ ๊ธฐ์ต์ด ๋๋๋ฐ, ์ด์ ๋ ์ด PaLM์ด ๋์ฑ multimodal ์ค๋ฌ์์ก๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด์ ํ ์คํธ๋ฅผ ๋์ด์ ์ด๋ฏธ์ง๊น์ง๋ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ด ๋์ด๋ฒ๋ฆฐ PaLM-'E'์ ๋ํด์ ์์๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ณธ ํฌ์คํธ๋ ๋ ผ๋ฌธ๊ณผ ๊ตฌ๊ธ์ ์๊ฐ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค.
The overview of PaLM-E
์ต๊ทผ ๋ช ๋ ๋์ ๋จธ์ ๋ฌ๋์์๋ ์์ฒญ๋ ๋ฐ์ ์ ์ด๋ฃฉํ์๋ค. ์ด๋ ๊ฒ ๋ฐ์ ๋ ๋ชจ๋ธ๋ค์ ์กฐํฌ๋ฅผ ์ค๋ช ํ๊ฑฐ๋ ์๊ฐ์ ์ง๋ฌธ์ ์๋ตํ๋ ๋ฑ์ ๋ค์ํ ์ธ์ด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ๋์๋ค. ์ฌ์ง์ด๋ ํ ์คํธ ์ค๋ช ์ด ์ฃผ์ด์ง๋ฉด ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ด๊ธฐ๋ ํ๋ค! ๐ฒ ์ด๋ฌํ ํ์ ์ ํฐ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ์ฑ์ด ๋์ด๋๊ณ , ์๋ก์ด ๋ฐ์ ๋ค์ด ๋ชจ๋ธ์ด ์ด๋ฌํ ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ์ ์๊ฒ ํด์คฌ๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํ๋ค๊ณ ๋ณผ ์ ์๋ค. ํ์ง๋ง robotic model๋ค์ ๋ช๋ช ์ฑ๊ณต ์ฌ๋ก๋ค์ ๋ณด์ด๊ณ ์๋ ๋ฐ๋ฉด์, ํฐ ํ ์คํธ corpora ๋๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋ถ์กฑ์ผ๋ก ๋ค๋ฅธ ๋๋ฉ์ธ์ ๋นํด ์์ง๋ฌ ๋๊ฐ๊ณ ์์ด ๋ณด์ด๊ณ ์๋ค.
๊ทธ๋์ ๊ตฌ๊ธ์์ ์๊ฐํ ๋ค์ํ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์์ญ์ผ๋ก ์ป์ ์ง์์ robotic ์์คํ ์ ์ ๋ฌํจ์ผ๋ก์จ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ค๋ฐฉ๋ฉด์ผ๋ก ๋ฐ์ด๋ robotic model์ด ๋ฐ๋ก PaLM-E์ด๋ค. PaLM-E๋ ๊ฐ๋ ฅํ LLM์ธ PaLM์ robotic ์์ด์ ํธ๋ก๋ถํฐ ์ป์ ์ผ์ ๋ฐ์ดํฐ๋ก ๋ณด์ํจ์ผ๋ก์จ "๊ตฌ์ฒดํ$($embodied$)$"ํ ๊ฒ์ด๋ค. ์ด๊ฒ์ด ๊ธฐ์กด์ LLM์ robotic์ผ๋ก ๊ฐ์ ธ์ค๋ ค๋ ์๋๋ค๊ณผ์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ด๋ค. ์ค์ง text input์๋ง ์์กดํ๊ธฐ ๋ณด๋ค๋, PaLM-E์ ์ฌ์ฉํ์ฌ ๋ก๋ด ์ผ์ ๋ฐ์ดํฐ์ raw stream์ ์ง์ ์์งํ๋๋ก LM์ ํ์ต์์ผฐ๋ค. ๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ ๋ก๋ด ํ์ต์์ ๋ฐ์ด๋ ๋ฟ๋ง ์๋๋ผ ์ผ๋ฐ์ ์ธ ๋ชฉ์ ์ visual-language-model์์ ํ๋ฅญํ language-only task ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค.
An Embodied language model, and also a visual-language generalist
ํํธ์ผ๋ก PaLM-E๋, robotic์ ์ํ ๋ชจ๋ธ๋ก ๊ฐ๋ฐ๋์๊ณ , ๋ค์ํ ์ ํ์ ๋ก๋ด๊ณผ ์ฌ๋ฌ ์์์ ๋ํ ๋ค์ํ ์์ ์ ํด๊ฒฐํ๋ค. ๋์์ PaLM-E๋ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๋ฅํ vision-language-model์ด๋ค. PaLM-E๋ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๊ฑฐ๋ ์ฌ๋ฌผ์ ์ธ์ํ๊ณ , ์ฅ๋ฉด์ ๋ถ๋ฅํ๋ ๋ฑ์ visual task๋ ์ํ ๊ฐ๋ฅํ๊ณ , ์ ์ธ์ฉ ๋๋ ์ํ ๋ฐฉ์ ์์ ํ๊ฑฐ๋ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฑ์ language task๋ ์ํ ๊ฐ๋ฅํ๋ค.
PaLM-E๋ ๊ตฌ๊ธ์์ ๊ฐ์ฅ ์ต๊ทผ์ ์๊ฐํ LLM์ธ PaLM๊ณผ ๊ฐ์ฅ ๋ฐ์ ๋ vision model์ธ ViT-22B๋ฅผ ๊ฒฐํฉํ์๋ค. ์ด ๋ฐฉ์์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ PaLM-540B๋ก ๋ง๋ค์ด์ง PaLM-E-562B์ด๊ณ , ์ด๋ ํ task-specific fine-tuning ์์ด visual-language OK-VQA ๋ฒค์น๋งํฌ์์ ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ธฐ๋ณธ์ ์ผ๋ก PaLM-540B์ ๋์ผํ ์ธ์ด ์ฑ๋ฅ์ ์ ์งํ์๋ค.
PaLM-E์ ์ฃผ๋ contributuon์ ๋ค์๊ณผ ๊ฐ๋ค.
- embodied ๋ฐ์ดํฐ๋ฅผ multimodal LLM์ ํ์ต์ ํผํฉํด ๋ฒ์ฉ์ ๋ชจ๋ธ, ์ ์ด ํ์ต, ๋ค์ค ๊ตฌํ ์์ฌ ๊ฒฐ์ ์์ด์ ํธ๋ฅผ ๊ต์กํ ์ ์์.
- ํ์ฌ SOTA visual-language model์ zero-shot ์ถ๋ก ๋ฌธ์ ๋ฅผ ์ ๋ค๋ฃจ์ง ๋ชป ํจ. ํ์ง๋ง, ์ ๋ฅํ ๋ฒ์ฉ visual-language model์ ํ๋ จํ๋ ๊ฒ์ด ๊ฐ๋ฅํจ.
- neural scene representation๊ณผ entity-labeling multimodal token ๊ฐ์ ์๋ก์ด architecture์ ์ ์ํ์์.
- PaLM-E๋ visual๊ณผ language๊ณผ ๊ฐ์ด ๋ค๋ฐฉ๋ฉด์ ๋ํด์ ์ง์ ์ผ๋ก ์ ๋งํ ๋ชจ์ต์ ๋ณด์ฌ์ค.
- ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ ์ catastophic fogetting๊ณผ ํจ๊ป multimodal fine-tuning์ ๊ฐ๋ฅํ๊ฒ ํจ.
How does PaLM-E work?
๊ธฐ์ ์ ์ผ๋ก PaLM-E๋ observation์ pre-trained LM์ ์ฃผ์ ํจ์ผ๋ก์จ ์๋ํ์๋ค. ์ด๊ฒ์ ์ด๋ฏธ์ง์ ๊ฐ์ ์ผ์ ๋ฐ์ดํฐ๋ฅผ LM์ ์ํด ์์ฐ์ด์ ๋จ์ด๊ฐ ์ฒ๋ฆฌ๋๋ ๊ฒ๊ณผ ๋น์ทํ ํ๋ก์์ ๋ก ๋ณํํจ์ผ๋ก์จ ์คํ์ํฌ ์ ์์๋ค.
LM์ text๋ฅผ ์ ๊ฒฝ๋ง์ด ์ฒ๋ฆฌํ ์ ์๋๋ก ์ํ์ ์ผ๋ก ํํํ๋ ๋ฉ์ปค๋์ฆ์ ์์กดํ๋ค. ์ด๊ฒ์ ๋จผ์ text๋ฅผ subword๋ฅผ ์ธ์ฝ๋ํ๋ so-called token์ผ๋ก ๋ถํ ํ์ฌ ๋ฌ์ฑ๋๋ฉฐ, ๊ฐ ํ ํฐ์ ์ซ์์ ๊ณ ์ฐจ์ ๋ฒกํฐ, ํ ํฐ ์๋ฒ ๋ฉ๊ณผ ์ฐ๊ด๋์ด ์๋ค. LM์ ์ํ์ ์ฐ์ฐ$($ํ๋ ฌ๊ณฑ ๊ฐ์$)$์ ๊ฒฐ๊ณผ๋ก ๋์จ ๋ฒกํฐ์ ์ํ์ค์ ์ ์ฉํด์ ๋ค์์ ์ฌ ๊ฒ ๊ฐ์ word token์ ์์ธกํ๋ค. ๊ทธ๋ฆฌ๊ณ ์๋กญ๊ฒ ์์ธก๋ word๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์, LM์ ๋ฐ๋ณต์ ์ผ๋ก ๋์ฑ ๋ ๊ธด text๋ฅผ ์์ฑํ ์ ์๋ค.
PaLM-E์ ์ ๋ ฅ์ ์์์ ์์๋ก ๋ text ๋ฐ ๊ธฐํ ์์$($์ด๋ฏธ์ง, robot states, scene embedding ๋ฑ$)$์ด๋ฉฐ, ์ด๋ฅผ "multimodal sentences"๋ผ๊ณ ํ๋ค. ์๋ฅผ ๋ค์ด ์ ๋ ฅ์ "<img_1>๊ณผ <img_2> ์ฌ์ด์ ๋ฌด์จ ์ผ์ด ๋ฐ์ํ๋์?"์ ํํ๋ฅผ ๋๋ค. ์ฌ๊ธฐ์ <img_1>๊ณผ <img_2>๋ ๋ ๊ฐ์ ์ด๋ฏธ์ง์ด๋ค. ์ถ๋ ฅ์ PaLM-E์ ์ํด auto-regressivelyํ๊ฒ ์์ฑ๋ text์ด๋ค. ์ด๊ฒ์ ์ง๋ฌธ์ ๋๋ต์ผ ์๋ ์๊ณ , text form์์ ๊ฒฐ์ ์ ์ํ์ค์ผ ์๋ ์๋ค.

PaLM-E์ ์์ด๋์ด๋ ๋ค์ํ ์ ๋ ฅ์ ์์ฐ์ด ๋จ์ด ํ ํฐ ์๋ฒ ๋ฉ์ฒ๋ผ ๋๊ฐ์ ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ encoder๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ฐ์ ์ ๋ ฅ์ "words"์ ์ ์ฌํ ๊ฒ์ผ๋ก ๋งคํ๋๋ค. $($๋น๋ก ์ด๋ค์ ๋ณ๊ฐ์ ์ธํธ๋ฅผ ํ์ฑํ ํ์๊ฐ ์์$)$ word์ image embedding ๋์ ๋๊ฐ์ ์ฐจ์์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ์ด๋ค์ LM์ ์ฌ์ฉ๋ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ language(PaLM) ๋ฐ vision(ViT) ๋ชจ๋์ ๋ํด pre-trained model์ ์ฌ์ฉํ์ฌ ํ์ต์ ์ํด PaLM-E๋ฅผ ์ด๊ธฐํํ์๋ค. ๋ชจ๋ธ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ ํ์ต ์ค์ ์ ๋ฐ์ดํธ๋ ์ ์๋ค.
Transferring knowledge from large-scale training to robots
PaLM-E๋ ๋ค๋ฐฉ๋ฉด์ผ๋ก ๋ฐ์ด๋ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ๊ณตํ์๋ค. ์ด ํจ๋ฌ๋ค์์ robot task์ vision-language task๋ฅผ ํจ๊ป ํ๋์ ์ผ๋ฐ์ ์ธ representation์ ํ๋ก ๋ฃ์์ผ๋ก์จ ๋ฌ์ฑํ์๋ค: text์ image๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์, text๋ฅผ ์ถ๋ ฅ. ์ค์ํ ๊ฒฐ๊ณผ๋ PaLM-E๊ฐ ์๋นํ ๊ธ์ ์ ์ธ ์ง์ ์ ๋ฌ์ vision๊ณผ language ์์ญ์ผ๋ก๋ถํฐ ์ป์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๋ก๋ด ํ์ต์ ํจ๊ณผ๋ฅผ ํฅ์์์ผฐ๋ค.

๊ฒฐ๊ณผ๋ค์ PaLM-E๊ฐ robotics, vision, language task์ ๊ฑฐ๋ํ ์ธํธ๋ฅผ ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ task์ ๋ํด ํ์ตํ๋ ๊ฒ์ ๋นํ์ฌ ์ฑ๋ฅ์ ์ ํ ์์ด ๋์์ ํด๊ฒฐํ ์ ์์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ถ๊ฐ์ ์ผ๋ก, visual-language ๋ฐ์ดํฐ๋ robot task์ ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํจ๋ค. ์ด๋ฌํ ์ ๋ฌ์ ํตํด PaLM-E๋ task๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ํ์ํ example ์ ์ธก๋ฉด์์ ๋ก๋ด ์์ ์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค.
Results
๋ ผ๋ฌธ์์๋ PaLM-E๋ฅผ 3๊ฐ์ robotic ํ๊ฒฝ์์ ํ๊ฐํ์๊ณ , ๊ทธ ์ค์ ๋ ๊ฐ๋ ์ค์ ๋ก๋ด์ ํฌํจํ๊ณ ์๋ค. ๋ฟ๋ง ์๋๋ผ visual question answering(VQA), ์ด๋ฏธ์ง ์บก์ ๋, ์ผ๋ฐ์ ์ธ language task ๊ฐ์ ์ผ๋ฐ์ ์ธ vision-language task์ ๋ํด์๋ ํ๊ฐ๋ฅผ ์งํํ์๋ค. PaLM-E๊ฐ ๋ก๋ด์ ๋ํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ task๋ฅผ ์ํํ ๋ ํ ์คํธ๋ฅผ ํ์ ์์ค์ ๋ก๋ด ๋์์ผ๋ก ๋ณํํ๊ธฐ ์ํด ํ์ ์์ค language-visual ์ ์ฑ ๊ณผ ์์ ์ด๋ฃจ๊ฒ ํ์๋ค.
์๋์ ์ฒซ ๋ฒ์งธ ์์๋ ์ฌ๋์ด ๋ชจ๋ฐ์ผ ๋ก๋ด์๊ฒ ์นฉ ํ ๋ด์ง๋ฅผ ๊ฐ์ ธ์ค๊ฒ ์ํค๋ ์์์ด๋ค. task๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์๋ฃํ๊ธฐ ์ํด, PaLM-E๋ ์๋์ ์ฐพ๊ณ ์ฌ๋ ๊ณํ์ ์ธ์ฐ๊ณ task๋ฅผ ์ํํ๋ ๊ฒ์ฒ๋ผ ๊ณํ์ ์ ๋ฐ์ดํธํจ์ผ๋ก์จ ์ธ์์ ๋ณํ์ ๋์ํ๊ฒ ํ์๋ค. ๋ ๋ฒ์งธ ์์์์๋, ๋ก๋ด์๊ฒ ์ด๋ก์ ๋ธ๋ก์ ์ง๊ฒ ํ์๋ค. ๋ง์ฝ ๋ก๋ด์๊ฒ ๋ธ๋ก์ด ๋ณด์ด์ง ์๋๋ผ๋, PaLM-E๋ ๊ณ์ ๋ก๋ด์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ผ๋ฐํํ๋ step-by-step ๊ณํ์ ์์ฑํ๋ค.


์๋ ๊ทธ๋ฆผ์ ๋ ๋ฒ์งธ ํ๊ฒฝ์์ ๋์ผํ PaLM-E ๋ชจ๋ธ์ ๋ค๋ฅธ ์ ํ์ ๋ก๋ด์์ "์์๋ณ๋ก ๋ธ๋ก์ ๋ชจ์๋ฆฌ๋ก ์ ๋ ฌ"๊ณผ ๊ฐ์ ๋งค์ฐ ๊ธธ๊ณ ์ ํํ ์์ ์ ํด๊ฒฐํ๋ค. ์ด๊ฒ์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๋ ์งง์ textually-represented action์ ์ํ์ค๋ฅผ ์์ฑํ๋ค. ์๋ฅผ ๋ค์ด "ํ๋์ ํ๋ธ๋ฅผ ์๋ ์ค๋ฅธ์ชฝ ์ฝ๋์ ๋ฐ์ด๋ฌ๋ผ.", "ํ๋์ ์ผ๊ฐํ๋ ๊ฐ์ด ๋ฐ์ด๋ฌ๋ผ." ์ ๊ฐ์ด ๋ง์ด๋ค. ์ฅ๊ธฐ์ ์ธ ๊ณผ์ ๋ ์์จ์ ์ธ ์์ฑ์ ๋ฒ์์์ ๋ฒ์ด๋๋ค. ๋ํ ๋นจ๊ฐ์ ๋ธ๋ก์ ์ปคํผ ์ปต์ ๋ฐ์ด๋ฃ๋ ๊ฒ๊ณผ ๊ฐ์ด ํ์ต ์๊ฐ ๋์ ๋ณผ ์ ์์๋ ์๋ก์ด task$($์ ๋ก์ท ์ผ๋ฐํ$)$๋ก ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค.


์ธ ๋ฒ์งธ ๋ก๋ด ํ๊ฒฝ์ ๋งค์ฐ ๋ง์ ์์ ๊ฐ๋ฅํ ํ๋ ์์๋ก ๋ก๋ด์ ์ง๋ฉดํ๋ ์กฐํฉ์ ์ผ๋ก ๋์ ์ ์ธ ๊ณํ task๋ฅผ ์ฐ๊ตฌํ๋ task and motion planning$($TAMP$)$์ ํ๋๋ก๋ถํฐ ์๊ฐ์ ๋ฐ์๋ค. ์ ๋ฌธ๊ฐ TAMP planner๋ก๋ถํฐ ์ป์ ๋ณดํต์ ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ PaLM-E๋ ์ด task๋ฅผ ํด๊ฒฐํ ๋ฟ๋ง ์๋๋ผ ๋ํ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด visual ๋ฐ language ์ง์ ์ ๋ฌ์ ํ์ฉํ๋ค.


visual-language ๋ค๋ฐฉ๋ฉด์ ๋ฐ์ด๋ ๋ชจ๋ธ๋ก์จ PaLM-E๋ ์ต๊ณ ์ vision-language-only ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ๋ ๊ฒฝ์๋ ฅ์๋ ๋ชจ๋ธ์ด๋ค. ํนํ, PaLME-E-562B๋ ์ด๋ ค์ด OK-VQA ๋ฐ์ดํฐ์ ์ ๋ํด ์ต๊ณ ์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์๋ค. ์ด task๋ ์๊ฐ์ ์ดํด ๋ฟ๋ง ์๋๋ผ ์ธ์์ ์ธ๋ถ์ ์ธ ์ง์๋ ํ์๋ก ํ๋ค. ๋ํ ์ด ๊ฒฐ๊ณผ๋ ํน์ task์ ๋ํด์๋ง fine-tuningํ์ง ์๊ณ ์ผ๋ฐ ๋ชจ๋ธ๋ก ๋๋ฌํ์๋ค.
Conclusion
PaLM-E๋ ์ด๋ป๊ฒ generally-capable model์ด vision๊ณผ language, robotic์ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ตํ ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๋ ๋์์ ์๊ฐ ๋ฐ ์ธ์ด์์ robotic ์์ญ์ผ๋ก ์ง์์ ์ ๋ฌํ ์ ์๊ฒ ํ์๋ค. ๋ ผ๋ฌธ์๋ ์ถ๊ฐ์ ์ธ ์ฃผ์ ๋ค์ ๋ํ ์ผ์ ๋ํด์ ๋ค๋ฃจ๊ณ ์์ผ๋ ํ ๋ฒ ํ์ธํด๋ณด๊ธธ ๋ฐ๋๋ค.
PaLM-E๋ ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค๋ก๋ถํฐ ์ด์ ์ ์ป์ ์ ์๋ ๋ ์ ๋ฅํ ๋ก๋ด์ ๊ตฌ์ถํ ์ ์๋ ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํ ๋ฟ๋ง ์๋๋ผ ์ง๊ธ๊น์ง ๋ถ๋ฆฌ๋ ๊ฒ์ฒ๋ผ ๋ณด์๋ ์์ ์ ํตํฉํ๋ ๊ธฐ๋ฅ์ ํฌํจํ์ฌ multimodal ํ์ต์ ์ฌ์ฉํ๋ ๋ค๋ฅธ ๊ด๋ฒ์ํ ์์ฉ ํ๋ก๊ทธ๋จ์ ๋ํ ํต์ฌ enabler๊ฐ ๋ ์ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2303.03378
PaLM-E: An Embodied Multimodal Language Model
Large language models excel at a wide range of complex tasks. However, enabling general inference in the real world, e.g., for robotics problems, raises the challenge of grounding. We propose embodied language models to directly incorporate real-world cont
arxiv.org
https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html
PaLM-E: An embodied multimodal language model
Posted by Danny Driess, Student Researcher, and Pete Florence, Research Scientist, Robotics at Google Recent years have seen tremendous advances across machine learning domains, from models that can explain jokes or answer visual questions in a variety of
ai.googleblog.com
'Paper Reading ๐ > multimodal models' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ผ๋ง ์ ์ ๋ธ๋ก๊ทธ์ ๊ตฌ๊ธ์์ ์๊ฐํ PaLM์ ๋ํ ๋ฆฌ๋ทฐ ํฌ์คํธ๋ฅผ ์ฌ๋ ธ๋ ๊ธฐ์ต์ด ๋๋ค. ์์ฒญ๋ ์์ ํ๋ผ๋ฏธํฐ ์๋ก ์ธํด ๊น์ง ๋๋๋ ๊ธฐ์ต์ด ๋๋๋ฐ, ์ด์ ๋ ์ด PaLM์ด ๋์ฑ multimodal ์ค๋ฌ์์ก๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด์ ํ ์คํธ๋ฅผ ๋์ด์ ์ด๋ฏธ์ง๊น์ง๋ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ด ๋์ด๋ฒ๋ฆฐ PaLM-'E'์ ๋ํด์ ์์๋ณด๋๋ก ํ๊ฒ ๋ค. ๋ณธ ํฌ์คํธ๋ ๋ ผ๋ฌธ๊ณผ ๊ตฌ๊ธ์ ์๊ฐ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์๋ค.
The overview of PaLM-E
์ต๊ทผ ๋ช ๋ ๋์ ๋จธ์ ๋ฌ๋์์๋ ์์ฒญ๋ ๋ฐ์ ์ ์ด๋ฃฉํ์๋ค. ์ด๋ ๊ฒ ๋ฐ์ ๋ ๋ชจ๋ธ๋ค์ ์กฐํฌ๋ฅผ ์ค๋ช ํ๊ฑฐ๋ ์๊ฐ์ ์ง๋ฌธ์ ์๋ตํ๋ ๋ฑ์ ๋ค์ํ ์ธ์ด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ๋์๋ค. ์ฌ์ง์ด๋ ํ ์คํธ ์ค๋ช ์ด ์ฃผ์ด์ง๋ฉด ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ด๊ธฐ๋ ํ๋ค! ๐ฒ ์ด๋ฌํ ํ์ ์ ํฐ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ์ฑ์ด ๋์ด๋๊ณ , ์๋ก์ด ๋ฐ์ ๋ค์ด ๋ชจ๋ธ์ด ์ด๋ฌํ ๋ฐ์ดํฐ์ ์์ ํ์ต๋ ์ ์๊ฒ ํด์คฌ๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํ๋ค๊ณ ๋ณผ ์ ์๋ค. ํ์ง๋ง robotic model๋ค์ ๋ช๋ช ์ฑ๊ณต ์ฌ๋ก๋ค์ ๋ณด์ด๊ณ ์๋ ๋ฐ๋ฉด์, ํฐ ํ ์คํธ corpora ๋๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋ถ์กฑ์ผ๋ก ๋ค๋ฅธ ๋๋ฉ์ธ์ ๋นํด ์์ง๋ฌ ๋๊ฐ๊ณ ์์ด ๋ณด์ด๊ณ ์๋ค.
๊ทธ๋์ ๊ตฌ๊ธ์์ ์๊ฐํ ๋ค์ํ ์๊ฐ์ ๋ฐ ์ธ์ด์ ์์ญ์ผ๋ก ์ป์ ์ง์์ robotic ์์คํ ์ ์ ๋ฌํจ์ผ๋ก์จ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ค๋ฐฉ๋ฉด์ผ๋ก ๋ฐ์ด๋ robotic model์ด ๋ฐ๋ก PaLM-E์ด๋ค. PaLM-E๋ ๊ฐ๋ ฅํ LLM์ธ PaLM์ robotic ์์ด์ ํธ๋ก๋ถํฐ ์ป์ ์ผ์ ๋ฐ์ดํฐ๋ก ๋ณด์ํจ์ผ๋ก์จ "๊ตฌ์ฒดํ$($embodied$)$"ํ ๊ฒ์ด๋ค. ์ด๊ฒ์ด ๊ธฐ์กด์ LLM์ robotic์ผ๋ก ๊ฐ์ ธ์ค๋ ค๋ ์๋๋ค๊ณผ์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ด๋ค. ์ค์ง text input์๋ง ์์กดํ๊ธฐ ๋ณด๋ค๋, PaLM-E์ ์ฌ์ฉํ์ฌ ๋ก๋ด ์ผ์ ๋ฐ์ดํฐ์ raw stream์ ์ง์ ์์งํ๋๋ก LM์ ํ์ต์์ผฐ๋ค. ๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ ๋ก๋ด ํ์ต์์ ๋ฐ์ด๋ ๋ฟ๋ง ์๋๋ผ ์ผ๋ฐ์ ์ธ ๋ชฉ์ ์ visual-language-model์์ ํ๋ฅญํ language-only task ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค.
An Embodied language model, and also a visual-language generalist
ํํธ์ผ๋ก PaLM-E๋, robotic์ ์ํ ๋ชจ๋ธ๋ก ๊ฐ๋ฐ๋์๊ณ , ๋ค์ํ ์ ํ์ ๋ก๋ด๊ณผ ์ฌ๋ฌ ์์์ ๋ํ ๋ค์ํ ์์ ์ ํด๊ฒฐํ๋ค. ๋์์ PaLM-E๋ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๋ฅํ vision-language-model์ด๋ค. PaLM-E๋ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๊ฑฐ๋ ์ฌ๋ฌผ์ ์ธ์ํ๊ณ , ์ฅ๋ฉด์ ๋ถ๋ฅํ๋ ๋ฑ์ visual task๋ ์ํ ๊ฐ๋ฅํ๊ณ , ์ ์ธ์ฉ ๋๋ ์ํ ๋ฐฉ์ ์์ ํ๊ฑฐ๋ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฑ์ language task๋ ์ํ ๊ฐ๋ฅํ๋ค.
PaLM-E๋ ๊ตฌ๊ธ์์ ๊ฐ์ฅ ์ต๊ทผ์ ์๊ฐํ LLM์ธ PaLM๊ณผ ๊ฐ์ฅ ๋ฐ์ ๋ vision model์ธ ViT-22B๋ฅผ ๊ฒฐํฉํ์๋ค. ์ด ๋ฐฉ์์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ PaLM-540B๋ก ๋ง๋ค์ด์ง PaLM-E-562B์ด๊ณ , ์ด๋ ํ task-specific fine-tuning ์์ด visual-language OK-VQA ๋ฒค์น๋งํฌ์์ ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ธฐ๋ณธ์ ์ผ๋ก PaLM-540B์ ๋์ผํ ์ธ์ด ์ฑ๋ฅ์ ์ ์งํ์๋ค.
PaLM-E์ ์ฃผ๋ contributuon์ ๋ค์๊ณผ ๊ฐ๋ค.
- embodied ๋ฐ์ดํฐ๋ฅผ multimodal LLM์ ํ์ต์ ํผํฉํด ๋ฒ์ฉ์ ๋ชจ๋ธ, ์ ์ด ํ์ต, ๋ค์ค ๊ตฌํ ์์ฌ ๊ฒฐ์ ์์ด์ ํธ๋ฅผ ๊ต์กํ ์ ์์.
- ํ์ฌ SOTA visual-language model์ zero-shot ์ถ๋ก ๋ฌธ์ ๋ฅผ ์ ๋ค๋ฃจ์ง ๋ชป ํจ. ํ์ง๋ง, ์ ๋ฅํ ๋ฒ์ฉ visual-language model์ ํ๋ จํ๋ ๊ฒ์ด ๊ฐ๋ฅํจ.
- neural scene representation๊ณผ entity-labeling multimodal token ๊ฐ์ ์๋ก์ด architecture์ ์ ์ํ์์.
- PaLM-E๋ visual๊ณผ language๊ณผ ๊ฐ์ด ๋ค๋ฐฉ๋ฉด์ ๋ํด์ ์ง์ ์ผ๋ก ์ ๋งํ ๋ชจ์ต์ ๋ณด์ฌ์ค.
- ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ ์ catastophic fogetting๊ณผ ํจ๊ป multimodal fine-tuning์ ๊ฐ๋ฅํ๊ฒ ํจ.
How does PaLM-E work?
๊ธฐ์ ์ ์ผ๋ก PaLM-E๋ observation์ pre-trained LM์ ์ฃผ์ ํจ์ผ๋ก์จ ์๋ํ์๋ค. ์ด๊ฒ์ ์ด๋ฏธ์ง์ ๊ฐ์ ์ผ์ ๋ฐ์ดํฐ๋ฅผ LM์ ์ํด ์์ฐ์ด์ ๋จ์ด๊ฐ ์ฒ๋ฆฌ๋๋ ๊ฒ๊ณผ ๋น์ทํ ํ๋ก์์ ๋ก ๋ณํํจ์ผ๋ก์จ ์คํ์ํฌ ์ ์์๋ค.
LM์ text๋ฅผ ์ ๊ฒฝ๋ง์ด ์ฒ๋ฆฌํ ์ ์๋๋ก ์ํ์ ์ผ๋ก ํํํ๋ ๋ฉ์ปค๋์ฆ์ ์์กดํ๋ค. ์ด๊ฒ์ ๋จผ์ text๋ฅผ subword๋ฅผ ์ธ์ฝ๋ํ๋ so-called token์ผ๋ก ๋ถํ ํ์ฌ ๋ฌ์ฑ๋๋ฉฐ, ๊ฐ ํ ํฐ์ ์ซ์์ ๊ณ ์ฐจ์ ๋ฒกํฐ, ํ ํฐ ์๋ฒ ๋ฉ๊ณผ ์ฐ๊ด๋์ด ์๋ค. LM์ ์ํ์ ์ฐ์ฐ$($ํ๋ ฌ๊ณฑ ๊ฐ์$)$์ ๊ฒฐ๊ณผ๋ก ๋์จ ๋ฒกํฐ์ ์ํ์ค์ ์ ์ฉํด์ ๋ค์์ ์ฌ ๊ฒ ๊ฐ์ word token์ ์์ธกํ๋ค. ๊ทธ๋ฆฌ๊ณ ์๋กญ๊ฒ ์์ธก๋ word๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์, LM์ ๋ฐ๋ณต์ ์ผ๋ก ๋์ฑ ๋ ๊ธด text๋ฅผ ์์ฑํ ์ ์๋ค.
PaLM-E์ ์ ๋ ฅ์ ์์์ ์์๋ก ๋ text ๋ฐ ๊ธฐํ ์์$($์ด๋ฏธ์ง, robot states, scene embedding ๋ฑ$)$์ด๋ฉฐ, ์ด๋ฅผ "multimodal sentences"๋ผ๊ณ ํ๋ค. ์๋ฅผ ๋ค์ด ์ ๋ ฅ์ "<img_1>๊ณผ <img_2> ์ฌ์ด์ ๋ฌด์จ ์ผ์ด ๋ฐ์ํ๋์?"์ ํํ๋ฅผ ๋๋ค. ์ฌ๊ธฐ์ <img_1>๊ณผ <img_2>๋ ๋ ๊ฐ์ ์ด๋ฏธ์ง์ด๋ค. ์ถ๋ ฅ์ PaLM-E์ ์ํด auto-regressivelyํ๊ฒ ์์ฑ๋ text์ด๋ค. ์ด๊ฒ์ ์ง๋ฌธ์ ๋๋ต์ผ ์๋ ์๊ณ , text form์์ ๊ฒฐ์ ์ ์ํ์ค์ผ ์๋ ์๋ค.

PaLM-E์ ์์ด๋์ด๋ ๋ค์ํ ์ ๋ ฅ์ ์์ฐ์ด ๋จ์ด ํ ํฐ ์๋ฒ ๋ฉ์ฒ๋ผ ๋๊ฐ์ ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ encoder๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ฐ์ ์ ๋ ฅ์ "words"์ ์ ์ฌํ ๊ฒ์ผ๋ก ๋งคํ๋๋ค. $($๋น๋ก ์ด๋ค์ ๋ณ๊ฐ์ ์ธํธ๋ฅผ ํ์ฑํ ํ์๊ฐ ์์$)$ word์ image embedding ๋์ ๋๊ฐ์ ์ฐจ์์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ์ด๋ค์ LM์ ์ฌ์ฉ๋ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ language(PaLM) ๋ฐ vision(ViT) ๋ชจ๋์ ๋ํด pre-trained model์ ์ฌ์ฉํ์ฌ ํ์ต์ ์ํด PaLM-E๋ฅผ ์ด๊ธฐํํ์๋ค. ๋ชจ๋ธ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ ํ์ต ์ค์ ์ ๋ฐ์ดํธ๋ ์ ์๋ค.
Transferring knowledge from large-scale training to robots
PaLM-E๋ ๋ค๋ฐฉ๋ฉด์ผ๋ก ๋ฐ์ด๋ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ๊ณตํ์๋ค. ์ด ํจ๋ฌ๋ค์์ robot task์ vision-language task๋ฅผ ํจ๊ป ํ๋์ ์ผ๋ฐ์ ์ธ representation์ ํ๋ก ๋ฃ์์ผ๋ก์จ ๋ฌ์ฑํ์๋ค: text์ image๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์, text๋ฅผ ์ถ๋ ฅ. ์ค์ํ ๊ฒฐ๊ณผ๋ PaLM-E๊ฐ ์๋นํ ๊ธ์ ์ ์ธ ์ง์ ์ ๋ฌ์ vision๊ณผ language ์์ญ์ผ๋ก๋ถํฐ ์ป์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๋ก๋ด ํ์ต์ ํจ๊ณผ๋ฅผ ํฅ์์์ผฐ๋ค.

๊ฒฐ๊ณผ๋ค์ PaLM-E๊ฐ robotics, vision, language task์ ๊ฑฐ๋ํ ์ธํธ๋ฅผ ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ task์ ๋ํด ํ์ตํ๋ ๊ฒ์ ๋นํ์ฌ ์ฑ๋ฅ์ ์ ํ ์์ด ๋์์ ํด๊ฒฐํ ์ ์์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ถ๊ฐ์ ์ผ๋ก, visual-language ๋ฐ์ดํฐ๋ robot task์ ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํจ๋ค. ์ด๋ฌํ ์ ๋ฌ์ ํตํด PaLM-E๋ task๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ํ์ํ example ์ ์ธก๋ฉด์์ ๋ก๋ด ์์ ์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค.
Results
๋ ผ๋ฌธ์์๋ PaLM-E๋ฅผ 3๊ฐ์ robotic ํ๊ฒฝ์์ ํ๊ฐํ์๊ณ , ๊ทธ ์ค์ ๋ ๊ฐ๋ ์ค์ ๋ก๋ด์ ํฌํจํ๊ณ ์๋ค. ๋ฟ๋ง ์๋๋ผ visual question answering(VQA), ์ด๋ฏธ์ง ์บก์ ๋, ์ผ๋ฐ์ ์ธ language task ๊ฐ์ ์ผ๋ฐ์ ์ธ vision-language task์ ๋ํด์๋ ํ๊ฐ๋ฅผ ์งํํ์๋ค. PaLM-E๊ฐ ๋ก๋ด์ ๋ํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ task๋ฅผ ์ํํ ๋ ํ ์คํธ๋ฅผ ํ์ ์์ค์ ๋ก๋ด ๋์์ผ๋ก ๋ณํํ๊ธฐ ์ํด ํ์ ์์ค language-visual ์ ์ฑ ๊ณผ ์์ ์ด๋ฃจ๊ฒ ํ์๋ค.
์๋์ ์ฒซ ๋ฒ์งธ ์์๋ ์ฌ๋์ด ๋ชจ๋ฐ์ผ ๋ก๋ด์๊ฒ ์นฉ ํ ๋ด์ง๋ฅผ ๊ฐ์ ธ์ค๊ฒ ์ํค๋ ์์์ด๋ค. task๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์๋ฃํ๊ธฐ ์ํด, PaLM-E๋ ์๋์ ์ฐพ๊ณ ์ฌ๋ ๊ณํ์ ์ธ์ฐ๊ณ task๋ฅผ ์ํํ๋ ๊ฒ์ฒ๋ผ ๊ณํ์ ์ ๋ฐ์ดํธํจ์ผ๋ก์จ ์ธ์์ ๋ณํ์ ๋์ํ๊ฒ ํ์๋ค. ๋ ๋ฒ์งธ ์์์์๋, ๋ก๋ด์๊ฒ ์ด๋ก์ ๋ธ๋ก์ ์ง๊ฒ ํ์๋ค. ๋ง์ฝ ๋ก๋ด์๊ฒ ๋ธ๋ก์ด ๋ณด์ด์ง ์๋๋ผ๋, PaLM-E๋ ๊ณ์ ๋ก๋ด์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ผ๋ฐํํ๋ step-by-step ๊ณํ์ ์์ฑํ๋ค.


์๋ ๊ทธ๋ฆผ์ ๋ ๋ฒ์งธ ํ๊ฒฝ์์ ๋์ผํ PaLM-E ๋ชจ๋ธ์ ๋ค๋ฅธ ์ ํ์ ๋ก๋ด์์ "์์๋ณ๋ก ๋ธ๋ก์ ๋ชจ์๋ฆฌ๋ก ์ ๋ ฌ"๊ณผ ๊ฐ์ ๋งค์ฐ ๊ธธ๊ณ ์ ํํ ์์ ์ ํด๊ฒฐํ๋ค. ์ด๊ฒ์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๋ ์งง์ textually-represented action์ ์ํ์ค๋ฅผ ์์ฑํ๋ค. ์๋ฅผ ๋ค์ด "ํ๋์ ํ๋ธ๋ฅผ ์๋ ์ค๋ฅธ์ชฝ ์ฝ๋์ ๋ฐ์ด๋ฌ๋ผ.", "ํ๋์ ์ผ๊ฐํ๋ ๊ฐ์ด ๋ฐ์ด๋ฌ๋ผ." ์ ๊ฐ์ด ๋ง์ด๋ค. ์ฅ๊ธฐ์ ์ธ ๊ณผ์ ๋ ์์จ์ ์ธ ์์ฑ์ ๋ฒ์์์ ๋ฒ์ด๋๋ค. ๋ํ ๋นจ๊ฐ์ ๋ธ๋ก์ ์ปคํผ ์ปต์ ๋ฐ์ด๋ฃ๋ ๊ฒ๊ณผ ๊ฐ์ด ํ์ต ์๊ฐ ๋์ ๋ณผ ์ ์์๋ ์๋ก์ด task$($์ ๋ก์ท ์ผ๋ฐํ$)$๋ก ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค.


์ธ ๋ฒ์งธ ๋ก๋ด ํ๊ฒฝ์ ๋งค์ฐ ๋ง์ ์์ ๊ฐ๋ฅํ ํ๋ ์์๋ก ๋ก๋ด์ ์ง๋ฉดํ๋ ์กฐํฉ์ ์ผ๋ก ๋์ ์ ์ธ ๊ณํ task๋ฅผ ์ฐ๊ตฌํ๋ task and motion planning$($TAMP$)$์ ํ๋๋ก๋ถํฐ ์๊ฐ์ ๋ฐ์๋ค. ์ ๋ฌธ๊ฐ TAMP planner๋ก๋ถํฐ ์ป์ ๋ณดํต์ ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ PaLM-E๋ ์ด task๋ฅผ ํด๊ฒฐํ ๋ฟ๋ง ์๋๋ผ ๋ํ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด visual ๋ฐ language ์ง์ ์ ๋ฌ์ ํ์ฉํ๋ค.


visual-language ๋ค๋ฐฉ๋ฉด์ ๋ฐ์ด๋ ๋ชจ๋ธ๋ก์จ PaLM-E๋ ์ต๊ณ ์ vision-language-only ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ๋ ๊ฒฝ์๋ ฅ์๋ ๋ชจ๋ธ์ด๋ค. ํนํ, PaLME-E-562B๋ ์ด๋ ค์ด OK-VQA ๋ฐ์ดํฐ์ ์ ๋ํด ์ต๊ณ ์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์๋ค. ์ด task๋ ์๊ฐ์ ์ดํด ๋ฟ๋ง ์๋๋ผ ์ธ์์ ์ธ๋ถ์ ์ธ ์ง์๋ ํ์๋ก ํ๋ค. ๋ํ ์ด ๊ฒฐ๊ณผ๋ ํน์ task์ ๋ํด์๋ง fine-tuningํ์ง ์๊ณ ์ผ๋ฐ ๋ชจ๋ธ๋ก ๋๋ฌํ์๋ค.
Conclusion
PaLM-E๋ ์ด๋ป๊ฒ generally-capable model์ด vision๊ณผ language, robotic์ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ตํ ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๋ ๋์์ ์๊ฐ ๋ฐ ์ธ์ด์์ robotic ์์ญ์ผ๋ก ์ง์์ ์ ๋ฌํ ์ ์๊ฒ ํ์๋ค. ๋ ผ๋ฌธ์๋ ์ถ๊ฐ์ ์ธ ์ฃผ์ ๋ค์ ๋ํ ์ผ์ ๋ํด์ ๋ค๋ฃจ๊ณ ์์ผ๋ ํ ๋ฒ ํ์ธํด๋ณด๊ธธ ๋ฐ๋๋ค.
PaLM-E๋ ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค๋ก๋ถํฐ ์ด์ ์ ์ป์ ์ ์๋ ๋ ์ ๋ฅํ ๋ก๋ด์ ๊ตฌ์ถํ ์ ์๋ ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํ ๋ฟ๋ง ์๋๋ผ ์ง๊ธ๊น์ง ๋ถ๋ฆฌ๋ ๊ฒ์ฒ๋ผ ๋ณด์๋ ์์ ์ ํตํฉํ๋ ๊ธฐ๋ฅ์ ํฌํจํ์ฌ multimodal ํ์ต์ ์ฌ์ฉํ๋ ๋ค๋ฅธ ๊ด๋ฒ์ํ ์์ฉ ํ๋ก๊ทธ๋จ์ ๋ํ ํต์ฌ enabler๊ฐ ๋ ์ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2303.03378
PaLM-E: An Embodied Multimodal Language Model
Large language models excel at a wide range of complex tasks. However, enabling general inference in the real world, e.g., for robotics problems, raises the challenge of grounding. We propose embodied language models to directly incorporate real-world cont
arxiv.org
https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html
PaLM-E: An embodied multimodal language model
Posted by Danny Driess, Student Researcher, and Pete Florence, Research Scientist, Robotics at Google Recent years have seen tremendous advances across machine learning domains, from models that can explain jokes or answer visual questions in a variety of
ai.googleblog.com