The overview of this paper
Meta-training์ task instruction๊ณผ ์ ๋ ฅ ์ธ์คํด์ค๊ฐ ์ฃผ์ด์ง๋ฉด ํ๊น ๋ผ๋ฒจ์ ๊ฐ๋ฅ์ฑ์ ์ต๋ํํจ์ผ๋ก์จ ๋ค์ํ downstream task์์ LM์ fine-tune ํ๋ค. ์ด training์ ๋ชจ๋ธ์ zero-shot task ์ผ๋ฐํ๋ฅผ ํฅ์์ํจ๋ค. ํ์ง๋ง, meta-trained LM๋ meta-training ์ค์ ๋ณธ ์ ์๋ ์๋ก์ด ๋ผ๋ฒจ์ ํฌํจํ๋ task์ ๋ํด์ ์ผ๋ฐํํ๋๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ด ๋ ผ๋ฌธ์์๋ Flipped Learning์ ์ ์ํ์๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด์ meta-training๊ณผ ๋ฐ๋๋ก, ์ ๋ ฅ ์ธ์คํด์ค์ ๋ผ๋ฒจ์ด ์ฃผ์ด์ง๋ฉด task instruction์ ์์ฑํ๋๋ก LM์ ํ์ต์ํจ๋ค. Flipped(Flipped Learning์ ์ค์)๋ unseen ๋ผ๋ฒจ์ ๋ํด์ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ Flipped์ ๊ฐ๋ ฅํ task ์ผ๋ฐํ๋ ์๋ก์ด ๋ผ๋ฒจ์ ๋ํ ๊ฐ์ ๋ ์ผ๋ฐํ๋ก๋ถํฐ ์จ๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค.
Table of Contents
1. Introduction
2. Flipped Learning
3. Experiments
3-1. Experimental Setup
3-2. Experimental Results
4. Ablation Studies
1. Introduction
์ด์ ์ฐ๊ตฌ๋ค์์๋ meta-training์ด zero-shot task ์ผ๋ฐํ์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ด๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, meta-trained LM๋ค์ ์๋ก ๋ค๋ฅธ ๋ผ๋ฒจ ๋จ์ด๋ค์ ๋ฏผ๊ฐํํด์ ์๋ก์ด ๋ผ๋ฒจ์ ํฌํจํ๋ task์ ๋ํด ์ผ๋ฐํํ๋ ๊ฒ์๋ ์ด๋ ค์์ ๊ฒช๊ณ ์์๋ค.
์ด ๋ ผ๋ฌธ์์๋ meta-training์ ๋์์ด ๋๋ ๋ฐฉ๋ฒ์ธ Flipped Learning์ ์ ์ํ์๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ๋ ฅ ์ธ์คํด์ค์ ๋ผ๋ฒจ์ด ์ฃผ์ด์ง ๋ instruction์ ์์ฑํ๋๋ก LM์ ํ์ต์ํจ๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด์ LM์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ค๋ฅธ ์ ์ ๊ฐ์ง๋ค. ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
- DIRECT: instruction & ์ ๋ ฅ ์ธ์คํด์ค๊ฐ ์ฃผ์ด์ง๋ฉด ๋ผ๋ฒจ์ ์์ฑํ๋๋ก ํ์ต
- CHANNEL: ๋ผ๋ฒจ์ด ์ฃผ์ด์ง๋ฉด instruction๊ณผ ์ ๋ ฅ ์ธ์คํด์ค๋ฅผ ์์ฑํ๋๋ก ํ์ต
๋ํ ๋ ผ๋ฌธ์์๋ Flipped Learning์ unlikelihood loss๋ฅผ ์ถ๊ฐํ๋ค. ์ด๋ LM์ด ๋ถ์ ํํ ๋ผ๋ฒจ ์ต์ ์ ๋ํด์๋ task instruction์ ์์ฑํ์ง ์๊ฒ ๋ง๋ ๋ค. ์ถ๋ก ์์ LM์ Flipped๋ผ๊ณ ๋ถ๋ฅด๋ Flipped Learning์ ํตํด ํ์ต๋๊ณ , task instruction์ ์์ฑํ๊ธฐ ๊ฐ์ฅ ์ ์ ํ ๋ผ๋ฒจ ์ต์ ์ ์ ํํด์ ์์ฑํ๋ค. ์ด ๊ณผ์ ์ด ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ค.
Direct ๋ฐฉ์์ผ๋ก ํ์ต๋ ๊ธฐ์กด์ meta-trained LM์ธ T0๊ณผ T0์ ๋นํด 5% ์ ๋์ ๊ณ์ฐ๋์ ์ฌ์ฉํ ๋ ผ๋ฌธ์์ ๊ตฌํํ Flipped๋ก meta-trainํ T5๋ฅผ ๋น๊ตํ์๋ค. BIG-Bench์ 14๊ฐ์ ๋ฐ์ดํฐ์ ์์ ํ๊ฐ๋ฅผ ์งํํ ๊ฒฐ๊ณผ Flipped๊ฐ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค (๊ทธ๋ฆผ 2).
๋ ผ๋ฌธ์์๋ Flipped๊ฐ unseen task์ ๋ํด์ ์ด๋ ๊ฒ ๊ฐ๋ ฅํ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด unseen ๋ผ๋ฒจ์ ๋ํ ๊ฐ์ ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋๋ฌธ์ด๋ผ๊ณ ๊ฐ์ ํ์๋ค. ์ด ๊ฐ์ค์ ์ฆ๋ช ํ๊ธฐ ์ํด ํ๋ฉด์ ๋ค๋ฅธ ํํ์ด๊ณ ์๋ฏธ๋ ๊ฐ์ ๋ค์ํ ๋ผ๋ฒจ ์์์ ํ๊ฐ๋ฅผ ์งํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ Flipped๋ ๋ผ๋ฒจ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์๋นํ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด๋ Flipped Learning์ด ๋ผ๋ฒจ์ ๋ง์ถ๊ธฐ๋ณด๋ค๋ ์์ฑํ๋ ๊ฒ์ ๋ง์ถ๊ธฐ ๋๋ฌธ์, Flipped Learning์ ์ค๋ฒํผํ ์ ํผํ๊ณ , ๊ฐ์ ๋ ๋ผ๋ฒจ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ ผ๋ฌธ์ contribution์ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- ์ ๋ ฅ ์ธ์คํด์ค์ ๋ผ๋ฒจ์ ์ฐ๊ฒฐ์ด ์ฃผ์ด์ง๋ฉด task instruction์ ๊ฐ๋ฅ์ฑ์ ๊ณ์ฐํ๋ ์๋ก์ด meta-training method์ธ Flipped Learning์ ์ ์ํ์๋ค. unlikelihood loss๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์ ๋ ฅ ์ธ์คํด์ค-๋ผ๋ฒจ ์๊ด์ฑ์ ์์กดํ๋ task instruction์ ์์ฑํ๋ LM์ ๋ง๋ค์๋ค. ๐ค
- BIG-Bench๋ก๋ถํฐ 14๊ฐ์ ๋ฐ์ดํฐ์ ์์ 11B Flipped๊ฐ meta-trained T0-11B ๋ฟ๋ง ์๋๋ผ 16๋ฐฐ ๋ ํฐ GPT-3๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. 14๊ฐ์ ์ถ๊ฐ์ ์์ด NLP task์์ ํ๊ฐ๋ฅผ ์งํํ์ ๋, Flipped๋ ๋ชจ๋ baseline์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๐ฅ
- Flipped๋ ํนํ meta-training ์ค์ ๋ณด์ง ๋ชปํ ๋ผ๋ฒจ์ ๋ํด ๋์ฑ ํจ๊ณผ์ ์ธ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์คฌ๋ค. โจ
2. Flipped Learning
2-1. Inference of Probabilistic LMs
๋ ผ๋ฌธ์์๋ meta-training๊ณผ ํ๊ฐ๋ฅผ ์ํด ๋ผ๋ฒจ ์ต์ ์ ๊ฐ์ง๊ณ ์๋ ๋ถ๋ฅ & multi-choice task์ ์ง์คํ์๋ค. ์ฃผ์ด์ง task $T = \left\{ x, Y \right\}$์ ๋ํด, $x$๋ ์ ๋ ฅ ์ธ์คํด์ค์ด๊ณ , $Y$๋ ๋ผ๋ฒจ ์ต์ ์ธํธ์ด๋ค. ๋ฐ์ดํฐ ์ธ์คํด์ค๋ฅผ prompt ๋ฒ์ $\left\{ [I, x], L\right\}$ ์ผ๋ก ๋ณํํ๋ค. $\left\{ [I, x], L\right\}$์์ $[I, x]$๋ ์์ฐ์ด instruction $I$๋ฅผ ํฌํจํ๋ prompt ์ ๋ ฅ ์ธ์คํด์ค์ด๊ณ , $L = \left\{ l_{1}, \cdots, l_{k}\right\}$๋ ์์ฐ์ด ๋ผ๋ฒจ ์ต์ ์ธํธ์ธ๋ฐ, ์ฌ๊ธฐ์ $l_{i} = v_{I}(y_{i})$์ด๊ณ $v_{I}$๋ $I$์ ํด๋นํ๋ verbalizer์ด๋ค. ์ถ๋ก ์์ ๋ชฉํ๋ $I$์ $x$๊ฐ ์ฃผ์ด์ง๋ฉด $L = \left\{ l_{1} \cdots l_{k}\right\}$๋ก๋ถํฐ ์๋ง์ $l_{i}$๋ฅผ ์ ํํ๋ค.
DIRECT. task instruction๊ณผ ์ ๋ ฅ ์ธ์คํด์ค๊ฐ ์ฃผ์ด์ง๋ฉด ๋ผ๋ฒจ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐํ๋ค. ์ถ๋ก ์์ ๊ฐ์ฅ ๋์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ฐ์ง๋ ๋ผ๋ฒจ์ ์ ํํ๋ค. ์ด ๋ฐฉ๋ฒ์ LM์ zero-shot ์ถ๋ก ์ ์ฌ์ฉ๋๋ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.
CHANNEL. ๋ผ๋ฒจ์ด ์ฃผ์ด์ง๋ฉด instruction & ์ ๋ ฅ ์ธ์คํด์ค์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐํ๋ค. ๋ฒ ์ด์ฆ ๊ท์น์ ์ฌ์ฉํด์ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ด ์ฌ ํ๋ผ๋ฏธํฐํ ๋๋ค.
Flipped Learning. ๋ ผ๋ฌธ์์ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ ๋ ฅ ์ธ์คํด์ค & ๋ผ๋ฒจ์ด ์ฃผ์ด์ง๋ฉด task instruction์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐํ๋ค. ์ด์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ $[I, x]$๋ฅผ $I$์ $x$๋ก ๋ถ๋ฆฌํ๊ณ ๋ฒ ์ด์ฆ ๊ท์น์ ์ฌ์ฉํ์ฌ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ด ์ฌ ํ๋ผ๋ฏธํฐํ ํ์๋ค.
$P(I|x, l_{i})$๋ฅผ ๊ณ ๋ คํจ์ผ๋ก์จ, LM์ด task instruction์ ๋ ์ ์ง์คํ๋๋ก ํด์ฃผ์๋ค. Flipped Learning์ ๋ฐฉ์์ด ์์ฑ์ question answering๊ณผ ๋น์ทํ๋ค๊ณ ์๊ฐํ ์ ์์ง๋ง, Flipped๋ ์ง๋ฌธ์ ๋ํ ๋๋ต์ด ์๋ task ์ผ๋ฐํ๋ฅผ ์ํ task instruction์ ์์ฑํ๋ค.
2-2. Meta-training using Flipped Learning
meta-training ์ค์ unlikelihood loss๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ํ์๋ก ํ๋ $P(I|x, l_{i})$๋ฅผ ํ์ฉํ๊ธฐ ์ํด ์ด๋ป๊ฒ LM์ ์ต์ ํํ๋์ง ์ค๋ช ํ๊ฒ ๋ค. task instruction $I = (I_{1}, \cdots, I_{T})$๊ฐ ์ฃผ์ด์ง๋ฉด, LM ์์ค ํจ์๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ธ๋ค.
์ฌ๊ธฐ์ $l_{c}$๋ ์๋ง์ ๋ผ๋ฒจ ์ต์ ์ ํด๋นํ๋ค. ์ด ์์ค ํจ์๋ฅผ ์ต์ํํจ์ผ๋ก์จ LM์ ์๋ง์ ๋ผ๋ฒจ ์ต์ ๊ณผ ์ ๋ ฅ ์ธ์คํด์ค๊ฐ ์ฃผ์ด์ก์ ๋ $I$๋ฅผ ์์ฑํ๋๋ก ํ์ต๋๋ค.
Unlikelihood Loss. ์ฌ์ ์คํ์ผ๋ก๋ถํฐ ์ค์ง $L_{LM}$์ ์ฌ์ฉํด์ LM์ meta-train ํ๋ ๊ฒ์ ์ ๋ ฅ ์ธ์คํด์ค์ ๋ผ๋ฒจ ๊ฐ์ ์๊ด์ฑ์ ๋ฌด์ํ๊ฒ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด LLM์ ์์ปท ํ์ต ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ์๋ค. ์ ๋ ฅ ์ธ์คํด์ค์ ์๋ง์ ๋ผ๋ฒจ ๊ฐ์ ์๊ด์ฑ ์ ํธ๋ฅผ ์ฆ๋ํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ meta-training ์ค์ unlikelihood loss๋ฅผ ์ถ๊ฐํ์๋ค.
์ฌ๊ธฐ์ $l_{c'}$์ ์๋ง์ง ์์ ๋ผ๋ฒจ ์ต์ ์ธํธ์ธ $L_{C'} = \left\{ l|l \in L, l \neq l_{c} \right\}$๋ก๋ถํฐ ๋๋คํ๊ฒ ์ํ๋ง๋ ์๋ง์ง ์์ ๋ผ๋ฒจ์ ํด๋น๋๋ค. ์ด unlikelihood loss๋ ๋ผ๋ฒจ ์ต์ ์ด ์ ๋ ฅ ์ธ์คํด์ค์ ์๊ด์๋ค๋ฉด LM์ด task instruction์ ์์ฑํ์ง ์๊ฒ ํ๋ค. ๋ฐ๋ผ์ Flipped Learning์ ์ต์ข training objective๋ $L_{LM}$๊ณผ $L_{UL}$์ ๊ฐ์ค์น ํฉ์ด ๋๋ค.
์ด ์์์ $\lambda$๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ค. likelihood์ unlikelihood loss๋ฅผ ์ต์ ํ ํจ์ผ๋ก์จ LM์ ์๋ง์ ๋ผ๋ฒจ์ด ์ฃผ์ด์ง ๋ instruction์ ์์ฑํ๊ณ , ์๋ง์ง ์์ ๋ผ๋ฒจ์ด ์ฃผ์ด์ง ๋ instruction์ ์์ฑํ์ง ์๋๋ก ์ต์ ํ๋๋ค. ์ด๋ ์ ๋ ฅ ์ธ์คํด์ค์ ์๋ง์ ๋ผ๋ฒจ ๊ฐ์ ์๊ด์ฑ์ ๊ฐํ์ํจ๋ค.
3. Experiments
3-1. Experimental Setup
Training. meta-training์ ์ํด, T0 meta-training ๋ฐ์ดํฐ์ ์ ์๋ธ์ ์ ํ์ฉํ์๋ค: 4๊ฐ์ cluster์์ ์ด 20๊ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ผ๋ฒจ ์ต์ ์ด ์๋ task์์๋ง ํ์ต์ ํ๊ณ , ๋ผ๋ฒจ ์ต์ ์ด ์๋ task์ ๋ํด์๋ ํ์ต์ ํ์ง ์์๋๋ฐ, ์ด๋ Flipped Learning์ด ์๋ง์ง ์์ ๋ผ๋ฒจ์์ unlikelihood training์ ์ํ ๋ผ๋ฒจ ์ต์ ์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ด๋ค.
Evaluation. BIG-Bench์ 14๊ฐ์ unseen task์์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ธก์ ํ์๋ค. ๊ฐ๊ฐ์ task์์ ๊ฐ task์ ๋ํ ํ๋์ instruction์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ์๋ค. ์ถ๊ฐ์ ์ผ๋ก 14๊ฐ์ English NLP unseen task(7 ๋ถ๋ฅ tasks + 7 multi-choice tasks)์์ ํ๊ฐ๋ฅผ ์งํํ์๋ค. ๋ํ ํ๊ท ํ์คํธ์ฐจ ๋ํ ๊ธฐ๋กํ์๋๋ฐ, ํ์คํธ์ฐจ๋ ํ๊ฐ instruction์ ์๋ก ๋ค๋ฅธ ์๋ฉ์ ๋ํ robustness๋ฅผ ํ๊ฐํ๋ค.
Baselines. ๋ ผ๋ฌธ์์๋ Flipped Learning์ ํจ๊ณผ๋ฅผ ๊ด์ฐฐํ๊ธฐ ์ํด ์ฌ๋ฌ baseline์ ํ๊ฐํ์๋ค.
- T0-3B: 3B ํฌ๊ธฐ์ meta-trained LM
- DIRECT: 3B ํฌ๊ธฐ์ meta-trained LM. T0-3B์ ๋๊ฐ์ language modeling objective๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋ ผ๋ฌธ์ ํ์ต ๊ตฌ์ฑ์ ์ฌ์ฉ.
- CHANNEL: 3B ํฌ๊ธฐ์ meta-trained LM. noisy channel language modeling์ ์ฌ์ฉํ 3B meta-trained LM์ ์ฌ์ฉ.
- Flipped-3B: Flipped Learning์ ์ฌ์ฉํ 3B LM.
- FLipped-11B: Flipped Learning์ ์ฌ์ฉํ 11B LM.
- 175B GPT-3
- 540B PaLM
3-2. Experimental Results
MAIN RESULTS
DIRECT๋ T0-3B๋ฅผ ๋ฅ๊ฐ. ๋ ผ๋ฌธ์์ ๊ตฌํํ DIRECT๋ T0์ ํ์ตํ๋๋ฐ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ ์ ๋ฐ๋ง ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ T0-3B๋ฅผ ์๋นํ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ๋ ผ๋ฌธ์ baseline๋ค์ด ์ ๋งํ ์ฑ๋ฅ์ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค. T0-3B์ DIRECT๋ ๋๊ฐ์ training objective์์ ํ์ต๋์์ผ๋ ์ค์ง training ๊ตฌ์ฑ์์ ์ฐจ์ด๋ฅผ ๊ฐ์ง๊ณ ์์์ ๋ฟ์ด๋ค. ์ด๋ ๋ ผ๋ฌธ์ training ์ธํ ์ด meta-trained LM์ task ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๋๋ฐ ์ต์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ฑ๋ฅ ๊ฐ์ ์ด ์ด๋ค์ง ๋ฐ๋ 3๊ฐ์ง ์์ธ์ด ์๋ค๊ณ ์ค๋ช ํ๋ค.
- 5%์ ํ ํฐ ์ ๋ฐ์ดํธ์ ๋ํด ํ์ต → ์ค๋ฒํผํ ์ ํผํ ์ ์๊ฒ ํด์ค
- T0-3B์ ๋ฌ๋ฆฌ ํ์ต๊ณผ ํ๊ฐ ์ค์ EOS๋ฅผ ํฌํจ
- meta-training ์ค์ sequence-packing ์ฌ์ฉ โ
CHANNEL์ task ์ผ๋ฐํ์ ํจ๊ณผ์ ์ด์ง ์์. CHANNEL์ DIRECT์ T0๋ณด๋ค ์๋นํ ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ง์ unseen task์ ๋ํด์ ๊ฑฐ์ random guess์ ๊ฐ๊น์ด ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ zero-shot ์ธํ ์์์ instruction์ด DIRECT ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ CHANNEL method์ ๋ํด์ task ์ผ๋ฐํ ์ฑ๋ฅ์ ์ฝํ์ํจ๋ค๋ ๊ฒ์ ๊ฐ๋ฆฌํจ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด prompt ์ ๋ ฅ์ด ๋๋ถ๋ถ question-answer ํ์์ด๋ผ CHANNEL์๋ ๋ง์ง ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ์๋ค.
Flipped๋ baseline์ ๋ฅ๊ฐ. ํ 1์ 14๊ฐ์ BIG-Bench task์ ๋ํด์, Flipped-3B๋ ๋๊ฐ์ ์ฌ์ด์ฆ์ meta-trained ๋ชจ๋ธ์ ์๋นํ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ฌ์ง์ด๋ 4๋ฐฐ ํฐ T0-11B๋ณด๋ค๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด ๊ฒฐ๊ณผ๋ scaling law์ ํจ๊ณผ๊ฐ meta-trained ๋ชจ๋ธ์ zero-shot ์ผ๋ฐํ์ ๋ํด ๊ฐ๋ ฅํจ์ ๋ณด์ฌ์ค๋ค. Flipped-11B๋ Flipped-3B๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. Flipped-11B๋ณด๋ค 16๋ฐฐ ๋ ํฐ few-shot ๋ชจ๋ธ์ธ 3-shot GPT-3์ ๋น๊ตํด๋, Flipped-11B๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. 50๋ฐฐ ํฐ ๋ชจ๋ธ์ธ PaLM๊ณผ ๋น๊ตํ์ ๋, 14๊ฐ์ task ์ค 4๊ฐ์ task์์ ๋ ๋์ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๊ฒ์ Flipped๊ฐ unseen task์ ๋ํด์ ์ผ๋ฐํํ๋๋ฐ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ , ๋์ฑ ํฐ ์ฌ์ด์ฆ์ LM๊ณผ ๋น๊ตํด๋ ์ต๊ณ ์ zero-shot ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
ํ 2์์ ๋ณด์ด๋ 7๊ฐ์ ๋ถ๋ฅ task์ 7๊ฐ์ multi-choice task๋ก ์ด๋ฃจ์ด์ ธ ์๋ 14๊ฐ์ ์ผ๋ฐ์ ์ธ English NLP task๋ค์ ๋ํด, Flipped-3B๋ ๋ ์ฌ์ด์ฆ ๋ชจ๋ธ์ ํฐ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ๊ณ , T0-11B์์ ์ฑ๋ฅ ๊ฐญ์ ํฌ๊ฒ ์ค์๋ค. ๋ํ Flipped๋ ๋ค๋ฅธ meta-trained baseline ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ๋ค์ํ ์๋ก ๋ค๋ฅธ ํ๊ฐ instruction ์ค์ ๊ฐ์ฅ ๋ฎ์ ํ์ค ํธ์ฐจ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด๊ฒ์ Flipped๊ฐ zero-shot task ์ผ๋ฐํ์ ํจ๊ณผ์ ์ผ ๋ฟ๋ง ์๋๋ผ instruction์ ์๋ก ๋ค๋ฅธ ํํ์ robust ํจ์ ๋ณด์ฌ์ค๋ค.
ANALYSIS OF FLIPPED
Flipped๋ unseen ๋ผ๋ฒจ์ ๊ฐ์ง๋ task์ ๋ํด์ baseline์ ์๋นํ ๋ฅ๊ฐํจ. ๋ ผ๋ฌธ์์๋ ์ฒ์์ Flipped๊ฐ ๊ธฐ์กด baseline์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค task๋ฅผ ๋ถ์ํด์ ๋ถ๋ช ํ ์๊ด๊ด๊ณ๋ฅผ ํ์ ํ๋ค. Flipped๋ ํนํ meta-training ์ค์ ๋ณด์ง ๋ชปํ ๋ง์ ๋ผ๋ฒจ ์ต์ ์ ํฌํจํ๋ task์์ ํนํ ๊ฐ๋ ฅํ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ํ 2๋ฅผ ๋ณด๋ฉด ๋ณธ ์ ์๋ ๋ผ๋ฒจ์ ํฌํจํ๊ณ ์๋ RTE, WSC, WiC ๋ฐ์ดํฐ์ ์์๋ DIRECT meta-trained LM์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ๋ณธ ์ ์๋ ๋ผ๋ฒจ์ ํฌํจํ๊ณ ์๋ CB, ANLI ๋ฐ์ดํฐ์ ์ ๋ํด์๋ Flipped๊ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๋ Flipped์ ํจ๊ณผ์ ์ธ ๋ผ๋ฒจ ์ผ๋ฐํ์ ๊ฒฐ๊ณผ๋ผ๊ณ ๋ณผ ์ ์๋ค. T0๊ณผ DIRECT์ ์์ธก์ training ์ค์ ๋ณธ ๋ผ๋ฒจ ์ต์ ์ ํฌ๊ฒ ํธํฅ๋์ด ์๋ค. ๋ฐ๋ฉด์ Flipped๋ ๋ฐธ๋ฐ์ค ์กํ ์์ธก์ ๋ง๋ค์ด ๋ธ๋ค.
ํ 2์ multi-choice task์ ๋ํด์, Flipped๋ ๋๋ถ๋ถ์ task์์ ๋ ์ฌ์ด์ฆ meta-trained LM์ ๋นํด ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ฒ๋ค๊ฐ, Flipped๋ BIG-Bench์์ T0-11B๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ์ด task๊ฐ ๋๋ถ๋ถ unseen ๋ผ๋ฒจ๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ผ๋ก๋ถํฐ ๋ ผ๋ฌธ์์๋ Flipped์ ๊ฐ๋ ฅํ zero-shot task ์ผ๋ฐํ๋ ๊ฐ๋ ฅํ ๋ผ๋ฒจ ์ผ๋ฐํ ๋ฅ๋ ฅ์ผ๋ก๋ถํฐ ์จ๋ค๊ณ ๊ฐ์ ํ์๋ค.
Flipped๋ ์๋ฏธ์ ์ผ๋ก ๋๊ฐ์ unseen ๋ผ๋ฒจ์ ์ผ๋ฐํํจ. ์์ ๊ฐ์ค์ ํ ์คํธํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ Flipped์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ผ๋ฒจ ์ต์ ์ ํ์์ ๋ค์ํ๊ฒ ํจ์ผ๋ก์จ ๋ค๋ฅธ baseline๋ค๊ณผ ๋น๊ตํจ์ผ๋ก์จ ๋ถ์ํ์๋ค. ๋ผ๋ฒจ ์ต์ ์ ํํ๋ ๋ฌ๋ฆฌํ์์ง๋ง ๊ทธ ๋ผ๋ฒจ์ด ์ง๋๋ ์๋ฏธ๋ ๊ฐ๊ฒ ํ์๋ค. ํ๊ฐ์๋ 5๊ฐ์ ๋ถ๋ฅ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค: 3๊ฐ์ unseen task(RTE, CB, WSC), 2๊ฐ์ seen task(IMDB, PAWS)
๊ทธ๋ฆผ 3์ T0-3B, DIRECT, T0-11B, Flipped-3B์ ๋ผ๋ฒจ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. unseen task์ ๋ํด Flipped๋ ๋ ์ฌ์ด์ฆ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , 4๋ฐฐ ํฐ ๋ชจ๋ธ๋ค์ ๋ํด์๋ ๋ง์ฐฌ๊ฐ์ง์๋ค. ์ด๊ฒ์ Flipped๊ฐ ๋ค์ํ ์๋ก์ด ๋ผ๋ฒจ์ ๋ํด์๋ ์ผ๋ฐํํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ด๋ ์ง์ ํ๋กฌํํธ๋ฅผ ํตํด ํ๋ จ๋ ๋ ํฐ meta-trained LM๋ ํ ์ ์๋ ๊ฒ์ด๋ค. ๋น๋ก baseline ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ ๋ผ๋ฒจ ์ ์ค์์ ์ต๊ณ ์ ํ๋์์ Flipped๋ฅผ ๋ฅ๊ฐํ์ง๋ง ์ด๋ ๋๋ถ๋ถ meta-training ์ค์ ๋ณธ ์ ์๋ ๋ผ๋ฒจ์ ๋ํด์๋ง์ด๋ค.
3๊ฐ์ unseen task์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, Flipped๋ 2๊ฐ์ unseen task์์ baseline์ ์๋นํ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณผ ์ ์๋ค. ์ด๊ฒ์ ๊ธฐ์กด์ meta-training์ด ํนํ ๋ณธ ์ ์๋ task์ ๋ํด์ ๋ผ๋ฒจ ์ค๋ฒํผํ ์ ๋ถ๋ฌ์จ๋ค๋ ๊ฐ์ ์ ๊ฐํํ๊ณ , Flipped Learning์ ์ด๋ฅผ ๋ผ๋ฒจ์ ์์ฑํ๋ ๋์ ๋ผ๋ฒจ ์ต์ ์ ๋ง์ถค์ผ๋ก์จ ํํผํ ์ ์์๋ค.
4. Ablation Studies
4-1. Effect of Unlikelihood Training
์์ ๋งํ๋ ๊ฒ์ฒ๋ผ ๋ ผ๋ฌธ์์๋ Flipped Learning์ unlikelihood loss๊ฐ ์ถ๊ฐ๋์ง ์์ผ๋ฉด ์ ๋ ฅ ์ธ์คํด์ค-๋ผ๋ฒจ ๊ฐ์ ์๊ด์ฑ์ ๋ฌด์ํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์๋ค. ์ด๋ ์ฑ๋ฅ์ ์๋นํ ํด๋ฅผ ๋ผ์น๊ฒ ๋๋ค. ๋ ผ๋ฌธ์์๋ Flipped์ ๊ฐ๋ ฅํ ์ผ๋ฐํ๊ฐ ๋จ์ง UL(unlikelihood loss)๋ก๋ถํฐ ์จ๋ค๋ฉด ๊ฐ๋ ฅํ baseline ๋ชจ๋ธ์ธ DIRECT์ UL์ ์ถ๊ฐํด๋ ๊ฐ๋ ฅํ ๊น?๋ผ๋ ๊ฐ์ค์ ์ธ์ ๋ค. ๊ทธ๋ฆผ 4์์ DIRECT+UL์ ์ฑ๋ฅ์ ๋ณด๋ฉด unlikelihood training์ ํนํ ๋ถ๋ฅ task์ ๋ํด์ task ์ผ๋ฐํ ์ฑ๋ฅ์ ์ฝํ์ํค๋ ๋ฐ๋ฉด์, multi-choice task์ ๋ํด์๋ ์๋นํ ํฅ์์ ๋ณด์ฌ์ค๋ค. ์ด ๋ task๋ ๋ชจ๋ Flipped๊ฐ ๊ทธ๋ฆฌ ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์ง ๋ชปํ task์ด๋ค. ์ด๊ฒ์ Flipped Learning์ ํจ๊ณผ๊ฐ unlikelihood training์ผ๋ก๋ถํฐ ์ค๋ ๊ฒ์ด ์๋๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด๋ณด๋ค๋ unseen task์ ๋ํด ํจ๊ณผ์ ์ผ๋ก ์ผ๋ฐํํ๊ธฐ ์ํด์๋ ๋ผ๋ฒจ & instruction ๊ณต๊ฐ์ ๋ค์ง๊ณ UL์ ์ฌ์ฉํด์ผ ํ๋ค.
4-2. Number of Datasets
๋ฐ์ดํฐ์ ์ ์๊ฐ ๋์ด๋ ๋ direct prompting์ ํตํ meta-trained LM์ ๊ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ Flipped๋ ์ด์ ๋น์ทํ ์์์ ๋ณด์ธ๋ค (๊ทธ๋ฆผ 4 ํ์ธ). ํฅ๋ฏธ๋กญ๊ฒ๋ 8๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ meta-train ํ Flipped๋ 20๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ ํ์ตํ DIRECT๋ณด๋ค multi-choice task์์ ๋ ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ํ Flipped๋ ์ค์ง 20%์ ๋ฐ์ดํฐ์ ๋ง์ ์ฌ์ฉํ๊ณ 5%์ ํ ํฐ ์ ๋ฐ์ดํธ๋ง ํจ์ผ๋ก์จ T0-3B๋ฅผ ๋ฅ๊ฐํ์๋ค. ์ด๋ Flipped Learning์ด ์ ์ ์์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๊ณ ๋ unseen task์ ๋ํด ์ผ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค๋ค. ์ด๋ฅผ ํตํด ํจ๊ณผ์ & ํจ์จ์ zero-shot learner๋ฅผ ๋ง๋ค ์ ์์๋ ๊ฒ์ด๋ค.
์ถ์ฒ
https://arxiv.org/abs/2210.02969