The overview of this paper
์ต๊ทผ์ multi-task prompted fine-tunig(MT)๋ผ๊ณ ์๋ ค์ ธ ์๋ ๋ค์ํ task์์ instruction-tuneํ๋ LM์ unseen task์ ๋ํด ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด์ ์ ์ฐ๊ตฌ์์๋ ๊ฐ๋ ฅํ MT LM์ ๋ง๋๋๋ฐ๋ ํ์ต task์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ค์ํ ์์๋ผ๊ณ ๋ฐํ์๋ค. ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ ์ค์ง ํ๋์ task์์ ํ์ต๋ expert LM์ด 300๊ฐ ์ด์์ ์๋ก ๋ค๋ฅธ task์์ ํ์ต๋ MT LM์ ๋ฅ๊ฐํ๋ค๋ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๋ฐ๊ฒฌ์ ์ด์ ์ task์ ์๋ฅผ ๋๋ฆฌ๋ฉด ๊ฐ๋ ฅํด์ง๋ค๋ ๋ฏฟ์์ ์๋ฌธ์ ์ ๊ธฐํ์๋ค. ์ด ๋ฐ๊ฒฌ์ ํตํด ๋ ผ๋ฌธ์์๋ ๋จ์ผ MT LM ๋์ ํ์ต task ๋น ๋ณ๋์ expert LM์ ํ์ต์ํค๋ ๋ถ์ฐ ์ ๊ทผ ๋ฐฉ์์ด ๋ง์ ์ด์ ์ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
- negative task transfer๋ฅผ ํผํจ
- ์ด์ task์ ๋ํ ์ฌํ์ต ์์ด ๊ณ์์ ์ผ๋ก ์๋ก์ด task์์ ํ์ต์ด ๊ฐ๋ฅ
- ๊ฐ๊ฐ์ expert๋ฅผ ํฉ์น ๋ compositional ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค
Table of Contents
1. Introduction
2. Expert Language Models
3. Experimental Setup
4. Expert LMs Can Generalize to Unseen Tasks
5. Benefits of Expert LMs over MT LMs
1. Introduction
์ด ๋ ผ๋ฌธ์์๋ ํ์ฌ MT LM ํ์ต์ ํจ๋ฌ๋ค์์ ๋ํ ๋ช ๊ฐ์ง ์๋ฌธ์ ์ ๊ธฐํ๊ณ , ์ด ์๋ฌธ์ ๋ ๊ฐ์ง ํํธ๋ก ๋๋์ด์ ธ ์๋ค. Part 1.์ MT LM๊ณผ expert LM์ ๊ดํ ์์์น ๋ชปํ ๋ฐ๊ฒฌ์ ๊ธฐ๋กํ์๊ณ , Part 2.๋ MT LM์ ๋ํ expert LM์ ์ด์ ์ ๊ฐ์กฐํ๊ธฐ ์ํด ์ด ๋ฐ๊ฒฌ์ ํ์ฉํ์๋ค.
Part 1. (Section 4) ์ด์ ์ MT LM์ unseen task์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๋๋ฐ ์ค์ํ ์์๋ ์ด task์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด์๋ค. ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด 300๊ฐ ์ด์์ task ์ค ํ๋์ task์์ ํ๋์ expert LM์ ํ์ต์ํค๋ ๊ฒ์ด ๋ ๋ซ๋ค.
๋๋ฆฌ ์ฌ์ฉ๋๋ MT LM์ธ T0-3B์ ๋๊ฐ์ ์คํ ์ ์ ์ ๋ฐ๋ผ์ ๊ธฐ๋ฐ์ด ๋๋ LM์ freeze ํ๊ณ adapter๋ฅผ ์ ๋ฐ์ดํธ ํจ์ผ๋ก์จ ๊ฐ๊ฐ์ ์ฃผ์ด์ง ํ์ต task(296)์ ๋ํ expert LM์ ํ์ต์ํจ๋ค. ๋ชจ๋ unseen task ํ๊ฐ task์ ๋ํด ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ expert๋ฅผ ์ฌ์ฉํ ๊ฒฐ๊ณผ 11๊ฐ์ unseen ๋ฐ์ดํฐ์ ๊ณผ 13๊ฐ์ BIG-Bench ๋ฐ์ดํฐ์ ์์ T0-3B๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ๋ํ ๊ฐ๊ฐ์ ๊ฐ๋ณ unseen task์ ๋ํด T0-3B์ ์คํ ๋งํ ์ฑ๋ฅ์ ๋ด๋ ์ฐ๊ด๋ expert๋ฅผ ์ฐพ๋ ๊ฐ๋จํ ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๊ฒฐ๊ณผ๋ ์๋ง์ expert๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชจ๋ unseen task์ ๋ํด ๋์ฑ ํจ์จ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๋ ๊ฒ์ ๋งํ๋ค.
Part 2. (Section 5) expert LM์ ๋ฐ๊ฒฌ์ ํธ๋ผ์ฉํ๋ฉด ๊ฐ์ ๋ unseen task ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ task์ ๋ํ ๋ค์ํ expert LM์ ํ์ต๊ณผ ์ถ๋ก ์ค์ ์ฐ๊ด๋ expert๋ฅผ ๊ฒ์ํ๋ ๊ฒ(๊ทธ๋ฆผ 1)์ ์ธ ๊ฐ์ง ์ฅ์ ์ ๊ฐ์กฐํ์๋ค.
- MT LM์ negative task transfer ๋๋ฌธ์ seen task์ ๋ํด ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง ๋ชป ํ๋ค. ์ฌ๊ธฐ์ ์ฌ๋ฌ ๊ฐ์ task๋ฅผ ํ ๋ฒ์ ํ์ตํ๋ ๊ฒ์ ๋ช๋ช ๊ตฌ์ฒด์ task์ ํ์ต์ ๋ฐฉํดํ๋ค. ๋ฐ๋๋ก expert LM์ ๊ฐ๊ฐ์ task๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต๋๊ธฐ ๋๋ฌธ์ negative task transfer์ ์ํฅ์ ๋ฐ์ง ์๋๋ค.
- MT LM์ ์๋ก์ด task๋ฅผ ํ์ตํ ๋ catastrophic forgetting์ ์ํฅ์ ๋ฐ๊ธฐ ์ฝ๊ณ , forgetting์ ์ํํ๊ธฐ ์ํด ์ฌํ์ต์ ํ์๋ก ํ๋ค. ๋ฐ๋ฉด์ ๋ ผ๋ฌธ์ ๋ถ์ฐ(๋ ๋ฆฝ์ ์ธ ๋ฐฉ์์ผ๋ก ๊ฐ๋ณ task๋ฅผ ํ์ต) ๋ฐฉ์์ seen task์ ๋ํด์ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ฌ์ฃผ์ง ์๋๋ค. ๋ํ 8๊ฐ์ ์๋ก์ด ์์ฑ task์ ๋ํด 8๊ฐ์ ์๋ก์ด expert๋ฅผ Expert Library์ ์ถ๊ฐํ ๋ ์ด์ ์ task์ ๋ํ ์ฌํ์ต์ ํ์๋ก ํ์ง ์๋๋ค.
- MT LM์ด ํด๋น ๋ช ๋ น์ด์ ์ฐ๊ฒฐ์ ํตํด ์ฃผ์ด์ง ์ด์ ์ ํ์ต๋ task๋ฅผ ๋จ์ผ compositional instruction์ผ๋ก ํฉ์ฑํ๋ ๋ฅ๋ ฅ์ด ์ข์ง ์์์ ๋ณด์ฌ์ค๋ค. ๊ฐ๋ณ task์์ ํ์ต๋ 2๊ฐ์ expert๋ฅผ mT5-3B์ ํฉ์น ๊ฒ์ด ๊ธฐ๋ฐ์ด ๋๋ PLM์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด expert๊ฐ MT LM๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
2. Expert Language Models
์ด ์น์ ์์๋ ๋ ผ๋ฌธ์์ ์ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ค๋ช ํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ training task์ ๋ํ adapter๋ฅผ ํ์ต์ํด์ผ๋ก์จ ๊ฐ expert๋ฅผ ํ์ต์์ผฐ๋ค(2-1). ์ถ๋ก ์ค์๋ Expert Library๋ก๋ถํฐ ์ฐ๊ด๋ expert๋ฅผ ๊ฒ์ํ์๋ค(2-2). ์ถ๊ฐ์ ์ผ๋ก ๋ถ์ฐ ํ์ต์ ์ด์ ์ ํ์ ํ๊ธฐ ์ํด expert๋ฅผ ํฉ์น๋ ๊ฒ์ ํจ๊ณผ๋ฅผ ํ์ํ์๋ค.
2-1. Training Experts
expert๋ฅผ ํ์ต์ํค๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์ฃผ๋ก adapter๋ฅผ ํตํ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ fine-tuning์ ํ๋ ๋ฐ๋ฉด ๊ฐ๋ณ expert๋ฅผ ํ์ต์ํค๊ธฐ ์ํด ๊ธฐ๋ฐ์ด ๋๋ LM์ freeze ํด๋์๋ค. ๋ ผ๋ฌธ์์๋ ํด๋นํ๋ prompt์ ํจ๊ป ๊ฐ๊ฐ์ task์ ๋ํ expert๋ฅผ ํ์ต์์ผฐ๊ณ , ์ด๊ฒ์ Prompt Expert(PE) ๋ผ๊ณ ํ๋ค. ๋ํ ๋ค์ํ training DE๋ก ๊ตฌ์ฑ๋์ด ์๋ ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํ expert๋ฅผ ํ์ต์์ผฐ๋๋ฐ ์ด๊ฒ์ Dataset Expert(DE) ๋ผ๊ณ ํ๋ค. DE ํ์ต์ ์ํด ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ธ adapter๋ฅผ ์ฌ์ฉํ๋ ๋์ ์, expert LM์ ์ตํฉ ๋ฅ๋ ฅ์ ๊ด์ฐฐํ๊ธฐ ์ํด ์ ์ฒด LM์ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฆผ 2๋ training ๋ฐ์ดํฐ์ ์ ๊ณ์ธต๊ณผ PE์ DE๊ฐ ํ์ต๋ ๋ ๋ฒจ์ ๋ณด์ฌ์ค๋ค.
Adapter. ๋ ผ๋ฌธ์์๋ ์๋ ํ๋ผ๋ฏธํฐ๋ฅผ freeze ํ๋ฉด์ ์ถ๊ฐ adapter๋ฅผ ํ์ต์์ผ expert๋ฅผ ํํํ๋ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ฉํ์๋ค. ํนํ, $l$๊ฐ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๋ ๊ธฐ์กด Transformer๊ฐ ์ฃผ์ด์ง๋ฉด, $T$๊ฐ์ ํ ํฐ์ ํจ์ ํ๊ณ ์๋ ์ ๋ ฅ ์ํ์ค $X$๊ฐ ์ฃผ์ด์ก์ ๋ ํ๋์ ๋ ์ด์ด $\textbf{h}_{1:T}^{l}$์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
์ฌ๊ธฐ์ $\textbf{h}_{t}^{l}$์ $l$๋ฒ์งธ ๋ ์ด์ด์ $t$ ํ ํฐ์ hidden state์ด๊ณ , $Self-Att(\cdot)$์ self-attention ๋ชจ๋, $FFN_{d}(\cdot)$์ hidden ์ฐจ์ $d$๋ฅผ ์ฌ์ฉํ๋ feed-forward ๋คํธ์ํฌ์ด๋ค. LM์ adapter expert๋ฅผ ์ฌ์ฉํด์ fine-tune ํ ๋, self-attention ๋ ์ด์ด ์ด์ ์ ๋ ์ด์ด๋ ๋ค์๊ณผ ๊ฐ์ ํ์์ผ๋ก ๋ณํ๋๋ค.
์ฌ๊ธฐ์ $e$๋ adapter feed-forward ๋คํธ์ํฌ์ hidden ์ฐจ์์ ๋ํ๋ธ๋ค. expert๋ฅผ ๋ํ๋ด๊ธฐ ์ํด adapter๋ฅผ ์ฌ์ฉํ ๋ $FFN_{e}$์ ํ๋ผ๋ฏธํฐ๋ง์ด ์ค์ง ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ด๊ณ LM์ ๋จ์์๋ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ๋ค์ freeze ๋๋ค.
2-2. Retrieval-of-Experts(RoE)
๊ฐ๋ณ expert์ ๋ ๋ฆฝ์ ์ธ ํ์ต ์ดํ์, ์ถ๋ก ์ค์ ์ฌ์ฉํ๊ธฐ ์ํ ํ๋์ expert๋ฅผ ์ฐพ์์ผ ํ๋ค. ์ด๋ฅผ ์ํด, ๋ ผ๋ฌธ์์๋ Expert Library๋ฅผ ๋ง๋ค๊ณ ์ถ๋ก ์ค์ ์ฌ์ฉํ๊ธฐ ์ํด ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก๋ถํฐ ์ฐ๊ด๋ expert๋ฅผ ์ฐพ๊ธฐ ์ํ dense retrieval์ ์ฌ์ฉํ๋ค.
Expert Library. Expert Library์ ๊ตฌ์ฑ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- keys: training task๋ก๋ถํฐ ๋์จ ํ๋์ instance์ ๊ฐ ์๋ฒ ๋ฉ representation
- values: ํด๋นํ๋ ํ์ต๋ expert์ ํน์ ์ id
๊ฐ๊ฐ์ ๋ ํนํ expert์ ๋ํด $S$ ๊ฐ์ training instance๋ ๋๋คํ๊ฒ ์ํ๋ง๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ ์ฅ๋๋ค. training instance์ embedding representation์ ์ป๊ธฐ ์ํด ๊ฐ๋จํ sentence Transformer๋ฅผ dense retrieval๋ก ์ฌ์ฉํ์๋ค. embedding model์ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง๋ training instance์ ํ ์คํธ ํ์์ ๋ํด, ๋ ผ๋ฌธ์์๋ ๋๋ต ์ ํ์ง๋ฅผ ์ฐ๊ฒฐํด์ Prompted Input์ผ๋ก ๋ง๋ค์๋ค (ex. Yes|No, A|B|C|D).
Retrieval. ์ถ๋ก ์ค์ ํ๊น task๊ฐ ์ฃผ์ด์ง๋ฉด ํ๊น task๋ก๋ถํฐ $Q$ ๊ฐ์ instance๋ฅผ ๋๋คํ๊ฒ ์ ํํ๋ค. ๊ทธ ๋ค์์ ๋๊ฐ์ ํ ์คํธ ํ์๊ณผ Expert Library๋ฅผ ๋ง๋ค๊ธฐ ์ํด ์ฌ์ฉ๋๋ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ๊ฐ $Q$ ํ๊น ์ฟผ๋ฆฌ์ embedding representation์ ์ป๋๋ค. ๊ทธ ํ์ ๊ฐ query instance์ ๋ํด ๊ฐ์ฅ ์ ์ฌํ training instance(key)๋ฅผ ์๋ณํ๊ธฐ ์ํด Expert Library์ MIPS(maximum inner product search)๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ์ด $Q$ ๊ฐ์ ํด๋น expert๋ฅผ ์ป๊ฒ ๋๋ค. ์ฃผ์ด์ง ํ๊น task๋ฅผ ํด๊ฒฐํ๋๋ฐ ์ฌ์ฉ๋๋ expert๋ ๊ฐ์ฅ ์์ฃผ ๊ฒ์๋์๋ expert๋ฅผ ์ ํํ๋ค.
2-3. Merging of Experts
์ด์ ์ ์ฐ๊ตฌ๋ค์ ๊ฐ๋ณ fine-tuned LM์ ์ตํฉํจ์ผ๋ก์จ ๋ถ์ฐ multitask fine-tuning์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์คฌ๋ค. ๊ฐ์ฅ ๋ง์ด ๊ฒ์๋ expert๋ฅผ ์ ํํจ๊ณผ ํจ๊ป ์์ ํ fine-tune๋ LM(DE)๋ฅผ ํฉ์น๋ ๊ฒ์ด ์ด๋ป๊ฒ unseen task์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น ์ง ๊ด์ฐฐํ์๋ค.
์์ ํ fine-tune๋ LM์ ๋ฒกํฐ $\tau_{d} = \theta_{d} - \theta_{pre}$์ ํํ๋ก ํํ๋๊ณ , ์ฌ๊ธฐ์ $\theta_{pre}$๋ vanilla pre-trained LM์ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ก ํํ๋๊ณ $\theta_{d}$๋ training ๋ฐ์ดํฐ์ $d$์์ fine-tune๋ LM์ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ก ํํ๋๋ค. $N$๊ฐ์ expert์ ์ตํฉ์ ๋ํ ์์์ ๋ค์๊ณผ ๊ฐ์ด ํํ๋๋ค.
์ฌ๊ธฐ์ $\lambda_{i} = \frac {1}{N}$์ด ๊ธฐ๋ณธ๊ฐ์ด๋ค.
3. Experimental Setup
Training Setup. expert๋ฅผ ํ์ต์ํค๊ธฐ ์ํด T0์ 36๊ฐ์ training ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค. ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด T0์ ํ์ต์ํค๋๋ฐ ์ฌ์ฉํ ๋ชจ๋ prompt๋ฅผ ์ฌ์ฉํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด 296๊ฐ์ prompt๋ฅผ ์ฌ์ฉํ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์์ ํ fine-tune๋ LM์ ํตํด 36๊ฐ์ Dataset Experts(DE)์ adapter training์ ํตํด 296๊ฐ์ Prompt Expert(PE)๊ฐ ๋์๋ค.
Evaluation Setup. baseline์ผ๋ก๋ T0-3B์ T0-11B๊ฐ ์ฌ์ฉ๋์๊ณ , ์ ์๋ method๋ก๋ T5-3B + DE/PE๊ฐ ์ฌ์ฉ๋์๋ค. ํ๊ฐ ๋ฐ์ดํฐ์ ์ T0์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ์ฌํ๋ฐ ๋ค์๊ณผ ๊ฐ๋ค.
- 4๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ก ์นดํ ๊ณ ๋ฆฌํ ๋๋ 11๊ฐ์ unseen ๋ฐ์ดํฐ์
- BIG-Bench์ 13๊ฐ์ ๋ฐ์ดํฐ์
- 8๊ฐ์ ์๋ก์ด ์์ฑ task. ์ด task๋ฅผ T0์์๋ ์ฌ์ฉ๋์ง ์์.
4. Expert LMs Can Generalize to Unseen Tasks
Main Results. ํ 1์ 11๊ฐ์ unseen ๋ฐ์ดํฐ์ ์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ํ 2๋ 13๊ฐ์ unseen BIG-Bench task์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ํ 3์ 8๊ฐ์ unseen ์์ฑ task์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ์ด 3๊ฐ์ ํ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ํ๋์ PE๋ T0-3B๋ฅผ ์๋นํ ๋ฅ๊ฐ
- RoE(ORC.)์ ์ฌ์ํ์ง ์์ ๋ง์ง์ผ๋ก ๋ฅ๊ฐ
- RoE ๋ฐฉ์์ ๋ถ๋ฅ task์์ T0-3B๋ฅผ ๋ฅ๊ฐํ๋ ๋ฐ๋ฉด, ์์ฑ task์์๋ ๊ทธ๋ฌ์ง ๋ชปํ์
#1. ํ 1์์ ํ๋์ prompt์์ ํ์ต๋ PE์ธ Cos PE๋ฅผ ํจ๊ป ์ฌ์ฉํ T5(3B)๋ ๋๋ฑํ ํฌ๊ธฐ์ MT LM์ธ T0-3B๋ฅผ 11๊ฐ์ ๋ฐ์ดํฐ์ ์ค 8๊ฐ์ ๋ฐ์ดํฐ์ ์์ ๋ฅ๊ฐํ์๋ค. ์ด์ ์ ์ฐ๊ตฌ๋ค์์๋ instruction tuning ์ค์ ๋ ๋ง์ training task์์ ํ์ตํ๋ ๊ฒ์ด ๋ ๋์ ์ผ๋ฐํ๋ฅผ ์ด๋๋ค ํ์์ง๋ง, ์ด ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด ํ๋์ task์์ ํ์ตํ expert๊ฐ 300๊ฐ ์ด์์ task์์ ํ์ต๋ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด ๋ฐ๊ฒฌ์ ํ 2์์๋ ๊ฐ์กฐ๋๋๋ฐ ์ฌ๊ธฐ์ ๋๊ฐ์ Cos PE๋ 11๊ฐ์ unseen task์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ ํ 3์์๋ 8๊ฐ์ ์์ฑ task์์ T5 + SAM PE๋ T0-3B๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค.
#2. ํ 1์์ ๊ฐ unseen task์ ๋ํ ์ ํ๋์ ๊ธฐ๋ฐํด์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ expert ์ ํ์ ์ํ ์ฑ๋ฅ์ธ T5(3B) + PE w/ RoE(ORC.)๋ T0-3B, GPT-3, T0-11B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ํ 8๊ฐ์ unseen ์์ฑ task์์ T0-3B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ RoE๊ฐ ์ ์ ํ expert๊ฐ ์ ํ๋์์ ๋ ๊ฐ๋ ฅํ unseen task ์ผ๋ฐํ์ ๋ํ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ ์๋ฏธํ๋ค.
#3. off-the-shelf retriever๋ฅผ ํ์ฉํ์ฌ ๋ณด์ด์ง ์๋ ๊ฐ task์ ๋ํด expert๋ฅผ ๊ฒ์ํ๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ธ T5(3B) + PE w/ RoE๋ T0-3B๋ฅผ 11๊ฐ์ ํ๊ฐ ๋ฐ์ดํฐ์ ์ค 8๊ฐ์ ๋ฐ์ดํฐ์ ์์ ๋ฅ๊ฐํ์๋ค. ํ์ง๋ง 8๊ฐ์ ์์ฑ task์ ๋ํด์๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. T5(3B) + PE w/ RoE๊ฐ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ expert T5(3B) + PE w/ RoE(ORC.)๊ณผ ๋น๊ตํด์ ์๋นํ ์ฑ๋ฅ ๊ฐญ์ ๋ณด์ฌ์ฃผ๋ฏ๋ก ๊ฒ์ ์ธก๋ฉด์์ ๋ ๊ฐ์ ํด์ผํ ์ ์ด ์๋ค.
Merging of Experts. ํ 4๋ expert LM์ ์ตํฉ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค. ์ฒซ 3ํ์ adapter์ ํํ๋ก ํํ๋์ด ์๋ PE์ ์ตํฉ ๊ฒฐ๊ณผ๊ฐ ๋ณด์ฌ์ง๊ณ ์๋ค. Cos PE์ Soc PE๋ฅผ ์ฌ์ฉํ ๊ท ์ผํ ์ตํฉ์ ์ํํจ์ผ๋ก์จ ๊ตฌ์ฑ๋ expert์ธ Cos&Soc PE (MER.)๋ ๋ช๋ช ๋ฐ์ดํฐ์ ์์๋ positive task transfer๋ฅผ ๋ณด์ฌ์คฌ์ง๋ง, ๋ชจ๋ ๊ฒฐ๊ณผ๊ฐ ๋ค ์ข์๋ ๊ฑด ์๋๋ค. ์ด๋ adapter expert๋ฅผ ํฉ์น ๋ negative task transfer๊ฐ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๊ทธ๋์ expert LM์ ์ตํฉ ๋ฅ๋ ฅ์ ๋ํด ์ถ๊ฐ์ ์ผ๋ก ํ์ํ๊ธฐ ์ํด, ์ด์ ์ฐ๊ตฌ๋ค์ ์ํด ํจ๊ณผ์ ์ด๋ผ๊ณ ์๋ ค์ง full LM fine-tuning์ผ๋ก DE๋ฅผ ํ์ต์ํค๊ณ ํ 4์ ๋ง์ง๋ง ํ์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ์ด ๋์ ํฉ์ณค๋ค. Cos&Soc DE๋ฅผ ์ตํฉํ ๊ฒ์ด ๊ฐ๋ณ Cos DE์ Soc DE๋ณด๋ค ์์ฃผ ์กฐ๊ธ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๋ ๋ expert๋ฅผ ์ตํฉํ๋ฉด ๋ฅ๋ ฅ์ composition์ ์ด๋์ด๋ธ๋ค๋ ๊ฒ์ ์์ํ๋ค. ์ด๋ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด๊ธฐ ์ํ expert์ ์ตํฉ์ ํ์ฉํ๋ ๊ฒ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด์ฃผ์๋ค. ์ด๋ 5์ฅ์ instruction composition์ ๋ํด์ ๋ ์์ธํ ๋ค๋ฃจ๋๋ก ํ๊ฒ ๋ค.
์ ๋ฐ์ ์ผ๋ก ํ 4๋ adapter์ ์ตํฉํ๋ค๊ณ ํด์ ์ ์ฒด ํ๋ผ๋ฏธํฐ์ ๋ณํฉํ๋ ๊ฒ์ฒ๋ผ ํญ์ positive task transfer๋ง ์ผ์ด๋๋ ๊ฒ์ ์๋๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Analysis of Expert ๊ทธ๋ฆผ 3์ 11๊ฐ์ unseen ๋ฐ์ดํฐ์ ์ ๋ํ PE์ DE์ ๋ชจ๋ ๊ฒฐ๊ณผ์ ํ๊ท ์ ํ๋๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆผ๊ณผ ํ๋ก๋ถํฐ ๋ค์์ 3๊ฐ์ง ๋ถ์์ ๊ฐ์กฐํ์๋ค.
- 8๊ฐ์ training task ์นดํ ๊ณ ๋ฆฌ์์, MCQA(Multi-Choice Question Answering) training task๊ฐ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๋ MCQA์ ๋ชจ๋ ํ๊ฐ ๋ฐ์ดํฐ์ ์ด ๋ถ๋ฅ task์ด๊ณ , instruction์ ํตํ QA์ ํ์์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ MCQA๊ฐ ๋ค๋ฅธ ํ์์ QA task ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ์ ํ์ task์๋ ์ ์ผ๋ฐํ ํ๋ค๋ ๋ฐ๊ฒฌ์ ํ์ฅ์์ผ์ค๋ค.
- 36๊ฐ์ training ๋ฐ์ดํฐ์ ์ค Cosmos-QA, Social-i-QA, Dream์ ๋ฐ์ดํฐ์ ์ PE์ DE ๋ชจ๋์ ๋ํด ์ผ๊ด์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ฅํด์ค๋ค. ์ด ์ ์ commonsense reasoning ๋ฐ์ดํฐ์ ์ธ๋ฐ ์ด๋ unseen task์ ๋ํ ์ผ๋ฐํ์ ์ค์ํ๋ค๊ณ ๊ณ ๋ ค๋๋ค.
- T5 + SAM PE๋ SAM-SUM์์ ํ์ต๋ PE์ธ๋ฐ 8๊ฐ์ unseen ์์ฑ task์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, 11๊ฐ์ unseen ๋ถ๋ฅ task์์ ๊ฐ์ฅ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ์ฃผ์ด์ง ํ๊น task์ ๊ธฐ๋ฐํด์ ์๋ง์ ์ ๋ฌธ๊ฐ๋ฅผ ์ญ๋์ ์ผ๋ก ์ฐพ๋ ๊ฒ์ด ๋์ฑ ์ค์ํ๋ค๋ ๊ฒ์ ์์ํ๋ค.
5. Benefits of Expert LMs over MT LMs
์ด ์น์ ์์๋ MT LM์ ๋นํด expert LM์ RoE์ 3๊ฐ์ง ์ฃผ๋ ์ด์ ์ ๊ฐ์กฐํ์๋ค.
Seen Task Performance. ์ฒซ ๋ฒ์งธ๋ก expert LM์ด negative task transfer์ ๋ ๋ฏผ๊ฐํ๋ค ๋ผ๋ ์ฌ์ค์ T5(3B) + PE w/ RoE์ ์ฑ๋ฅ๊ณผ T0-3B, R0-11B์ ๋น๊ตํจ์ผ๋ก์จ ๋ณด์ฌ์ค๋ค(ํ 5). ์ด๋ seen instruction์ผ๋ก ํ๊ฐ๊ฐ ์ด๋ฃจ์ด์ง๊ธฐ ๋๋ฌธ์ ๋ ผ๋ฌธ์ ๋จ์ ๊ฒ์ ๋ฉ์ปค๋์ฆ์ Expert Library์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ expert๋ฅผ ์ ํํ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ ๋๋ฌธ์ T5(3B) + PE W/ ROE (ORC.)์ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
Continual Learning of New Tasks. ๋ชจ๋ธ ์ฌ์ฉ ํ์๋ ์ถ๊ฐ์ ์ผ๋ก LM์ ์ถ๊ฐ ๋ฐ์ดํฐ์์ fine-tune ํ๊ณ ์ถ์ผ๋ฉด fine-tuned LM์ continual learner๋ก ๋ง๋๋ ๊ฒ์ด ์ค์ํ๋ค. ์ด๋ ๊ธฐ์กด ๋ฐ ์ถ๊ฐ์ task์์ ๊ฐ ์ ๋ฐ์ดํธ๋ง๋ค instruction tuning์ ์ํํ๋ ๊ฒ์ ๋ง์ ๊ณ์ฐ๋์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด์ ์ ์ฐ๊ตฌ๋ค์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด rehearsal-based ๋ชจ๋ธ์ ํตํด ๊ธฐ์กด ๋ฐ ์ถ๊ฐ task์ ์ํ์์ instruction-tuned LM์ ๊ณ์์ ์ผ๋ก trainingํ์๋ค. ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ๋ค์ ์ ๊ทผํด์ผ ํ๋ค๋ ์ ๊ณผ ์ถ๊ฐ์ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ๋ง๋ ๋ค๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค.
๋ ผ๋ฌธ์์๋ ์์ ๋๊ฐ์ ์์ ์ expert์ ๋ถ์ฐ ํ์ต์ ํตํด ๊ฐ ์ถ๊ฐ rask์ ๋ํ ๊ฐ๋ณ expert๋ฅผ ํ์ต์ํค๊ณ ์ด๋ค์ ๊ฐ๋จํ Expert Library์ ์ถ๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด์ seen ๋ฐ์ดํฐ์ ์ ๋ํ ์ ๊ทผ ์์ด ๋ฌ์ฑํ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ rehearsal ๋ฐฉ์์ ์ฌ์ฉํ๋ CT0-3B์ ๋ถ์ฐ ๋ฐฉ์์ 8๊ฐ์ ์์ฑ task์์ ๋น๊ตํ์๋ค(ํ 6).
ํ๋ ๋ ผ๋ฌธ์ ๋ถ์ฐ ๋ฐฉ๋ฒ์ด seen task์ ๋ํ ์ฑ๋ฅ ์ ํ๋ ์์ ํ ์์๋ค. ์ด๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ๋ํ ์ ๊ทผ ๋๋ ๋ง์ ๊ณ์ฐ ๋น์ฉ์ ๋ํ ํ์ ์์ด ๋ถ์ฐ ๋ฐฉ์์ ๊ธฐ์กด์ ๋ฅ๋ ฅ์ ์ป์ ๋ฟ๋ง ์๋๋ผ CT0-3B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Compositional Instructions. ์ด์ ์ ์ฐ๊ตฌ๋ค์ compositional instruction์ ์ํํด์ผ ํ ํ์๊ฐ ์์์ ๋ณด์ฌ์ค๋ค. ์๋ฅผ ๋ค์ด ๋ ผ๋ฌธ์์๋ ๋ค์์ instruction์ LM์๊ฒ ์ค ์ ์๋ค: "๋ค์ ์์ด text์ ์์ฝ์ ์์ฑํ๊ณ ์ด ๋ฌธ์ฅ์ ํ๊ตญ์ด๋ก ๋ฒ์ญํด๋ผ." ์ฌ๊ธฐ์ "๋ค์ ์์ด text์ ์์ฝ ์์ฑ"๊ณผ "๋ฌธ์ฅ์ ํ๊ตญ์ด๋ก ๋ฒ์ญํด๋ผ"์ ๋ ๊ฐ์ instruction์ผ๋ก ๋๋์๋ค. ์ด compositional ๋ฅ๋ ฅ์ ํ ์คํธํ๊ธฐ ์ํด ํนํ multi-lingual ์ธํ ์์ mT0-3B๋ฅผ ํ์ฉํ๊ณ ์์ฝ๊ณผ ๋ฒ์ญ์ ์๋ก์ด compositional task๋ฅผ ์ํํ๋ ๊ฒ์ composition์ ํ๊ฐํ๋ค.
5๊ฐ compositional task์์์ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ํ 7์ ๋ํ๋ ์๋ค. ๋ ผ๋ฌธ์ ๋ถ์ฐ ๋ฐฉ์์ธ mT5-3B + MER. Ex. ์ MT LM counterpart์ธ mT0-3B๋ฅผ 5๊ฐ task ์ค 4๊ฐ์์ ๋ฅ๊ฐํ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2302.03202
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Recently, Language Models (LMs) instruction-tuned on multiple tasks, also known as multitask-prompted fine-tuning (MT), have shown the capability to generalize to unseen tasks. Previous work has shown that scaling the number of training tasks is the key co
arxiv.org