์ด์ ์ ๋ฆฌ๋ทฐํ๋ ๋ ผ๋ฌธ์ธ 'It's Not Just Size That Metters; Small Language Models Are Also Few-Shot Learners'์์ ์ฌ์ฉ๋ PET์ ๋ํด ๊ถ๊ธํด์, ์ด๋ฒ ํฌ์คํธ์์๋ PET์ ์ฒ์์ผ๋ก ์๊ฐํ ๋ ผ๋ฌธ์ธ 'Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference'์ ๋ํด์ ๋ฆฌ๋ทฐํ์๋ค.
It's Not Just Size That Metters; Small Language Models Are Also Few-Shot Learners ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: https://cartinoe5930.tistory.com/entry/Its-Not-Just-Size-That-Matters-Small-Language-Models-Are-Also-Few-Shot-Learners-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0
The overview of this paper
๋ช๋ช์ NLP task๋ค์ ๋น์ง๋ ๋ฐฉ์์ผ๋ก ํ์ตํ LM์ผ๋ก๋ 'task description'์ ํ์ฉํ์ฌ ํด๊ฒฐ์ด ๊ฐ๋ฅํ๋ค. ํ์ง๋ง ์ด๋ฐ ๋ฐฉ์์ ์ง๋ ํ์ต์ ๋นํด ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๋ ๊ฐ์ ์์ด๋์ด๋ฅผ ํฉ์น ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ์ค์ง๋ ํ์ต์ผ๋ก input example์ cloze-style ๊ตฌ๋ฌธ์ผ๋ก ๋ณํํด์ LM์ด ์ฃผ์ด์ง task์ ๋ํด ์ ์ดํดํ ์ ์๋๋ก ๋์์ฃผ๋ Pattern Exploiting Training$($PET$)$์ ์๊ฐํ์๋ค. ์ด๋ฌํ ๊ตฌ๋ฌธ์ unlabeled example์ ๋ํด soft label์ ์ง์ ํด์ค ์ ์์๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ฒฐ๊ณผ๋ก ๋์จ ํ์ต ๋ฐ์ดํฐ์ ์ ๋ํด ๊ธฐ์กด์ ์ง๋ ํ์ต์ด ์ฌ์ฉ๋ ์ ์๋ค. ๋ค์ํ task์ ์ธ์ด์ ๋ํด PET์ ์ ์ ์์์ ํ๊ฒฝ์์ ์ง๋ ํ์ต๊ณผ ๊ฐ๋ ฅํ ์ค์ง๋ ํ์ต ๋ฐฉ์์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Pattern Exploiting Training
2-1. PVP Training and Inference
2-2. Auxiliary Language Modeling
2-3. Combining PVPs
2-4. Iterative PET $($iPET$)$
3. Analysis
1. Introduction
example๋ก๋ถํฐ ํ์ตํ๋ ๊ฒ์ด ๋ง์ NLP task๋ค์ ๋ํด ์ฐ์ธํ ๋ฐฉ๋ฒ์ด๋ค. ์ธ์์๋ ์๋ง์ ์ธ์ด์ ๋ค์ํ ๋ถ์ผ์ task๋ค์ด ์๊ณ , ๋ฐ์ดํฐ๋ฅผ ๋ผ๋ฒจ๋งํ๋๋ฐ ๋ง์ ๋น์ฉ์ด ๋ค๊ธฐ ๋๋ฌธ์, ์ค์ ๋ก NLP๋ฅผ ์งํํ ๋ ์ ์ ์์ labeled example์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ณดํต์ด๋ค. ์ด๋ฌํ ์ฐ๊ตฌ ํ๊ฒฝ์ด few-shot learning์ ์ฃผ์์ฑ์ ๋๋์์ผฐ๋ค. ๋ถํํ๊ฒ๋, ์ ์ ์์ ํ์ต ๋ฐ์ดํฐ์ ๋ํด ์ง๋ ํ์ต์ ์งํํ๋ ๊ฒ์ ์ข ์ข ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ฌ๋ฌ ๊ฐ์ง ๋ฌธ์ ๋ค์ ์ ์ example์ ๋ณด๊ณ ์ดํดํ๋ ๊ฒ์ด ํ๋ค๋ค๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ค์์ 3๊ฐ์ ๋ฌธ์ฅ์ ๋ฐ์๋ค๊ณ ๊ฐ์ ํด๋ณด์.
- $T_1$: This was the best pizza I've ever had.
- $T_2$: You can get better sushi for half the price.
- $T_3$: Pizza was average. Not worth the price.
์ฌ๊ธฐ์์, ๋ชจ๋ธ์๊ฒ $T_1$๊ณผ $T_2$์ ๋ผ๋ฒจ์ด $l$๊ณผ $l'$ ๊ฐ๊ฐ์ด๋ผ๊ณ ๋งํด์ฃผ๊ณ , $T_3$์ ์๋ง์ ๋ผ๋ฒจ์ ์ถ๋ก ํด์ ๋๋ตํ๊ฒ ํ๋๋ก ์์ํด๋ณด์. ์ค์ง ์ด example์ ๋ํด์๋, $l$๊ณผ $l'$์ ๋ํด์ ๋ ๋ค ๊ทธ๋ด ๋ฏํ ํ๋นํ ์ด์ ๋ฅผ ์ฐพ์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ ๊ธฐ๋ณธ task๊ฐ ํ ์คํธ๊ฐ price์ ๋ํด ๋งํ๋์ง ์ฌ๋ถ๋ฅผ ์๋ณํ๋ ๊ฒ์์ ์๋ค๋ฉด ๊ทธ ์ฝ๊ฒ $l'$์ $T_3$๋ก ์ง์ ํ ์ ์๋ค. ์ด๊ฒ์ task description์ด ์์ ๋, ์ ์ example๋ก๋ ์ฝ๊ฒ task๋ฅผ ํด๊ฒฐํ ์ ์๋ค๋ ๊ฒ์ ์ค๋ช ํด์ค๋ค. ์๋ฅผ ๋ค์ด, ์๋ฌธ์ ์ค๋ช ์ task๊ฐ ์ด๋ค ๊ฒ์ธ์ง์ ๋ํ ์ดํด๋ฅผ ๋์์ค๋ค.
pre-trained model์ ๋ฐ์ ๋ฐ ๋ฐ๋ผ์, task description์ ์ ๊ณตํด์ค๋ค๋ ์์ด๋์ด๋ ์ ๊ฒฝ๋ง architecture์ ์ ์ฉ ๊ฐ๋ฅํด์ก๋ค. task description์ ์ ๋ ฅ์ ์ฌ์ฉํ ์์ฐ์ด์ ์ถ๊ฐํ๋ ๊ฒ์ผ๋ก PLM์ด task๋ฅผ ํด๊ฒฐํ ์ ์๋๋ก ๋์์ค๋ค. ์ด ๋ฐฉ์์์ ํ์ต ๋ฐ์ดํฐ๊ฐ ์์ ์๋ค๋ฉด zero-shot scenario๊ฐ ๋๋ ๊ฒ์ด๋ค.
๋ ผ๋ฌธ์์๋ task description ์ ๊ณต์ด ๊ธฐ์กด์ few-shot ์ธํ ๊ณผ ํตํฉ๋ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋ ์ค์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก ์์ฐ์ด ํจํด์ ์ด์ฉํ์ฌ input example์ cloze-style ๊ตฌ๋ฌธ์ผ๋ก ๋ณํํ๋, Pattern-Exploiting Training$($PET$)$๋ฅผ ์๊ฐํ์๋ค. ๊ทธ๋ฆผ 1์์ ์๊ฐ๋์ด ์๋ ๊ฒ์ฒ๋ผ, PET์ ๋ค์์ ์ธ ๋จ๊ณ๋ก ์๋ํ๋ค.
- ๊ฐ๊ฐ์ ํจํด์ ๋ํด ๋ถ๋ฆฌ๋ PLM์ ์์ ํ์ต ๋ฐ์ดํฐ์ $\tau$์ผ๋ก fine-tune๋๋ค.
- ๋ชจ๋ ๋ชจ๋ธ์ ensemble์ ์ปค๋ค๋ unlabeled dataset D๋ฅผ soft label๋ก ๋ผ๋ฒจ๋งํ๋ค.
- ๊ธฐ์กด์ ๋ถ๋ฅ๊ธฐ๋ soft-labeled dataset์ ๋ํด ํ์ตํ๋ค.
PET๋ฟ๋ง ์๋๋ผ iPET๋ ์๊ฐํ์๋๋ฐ, iPET์ PET์ ๋ฐ๋ณต$($iterative$)$ ๋ฒ์ ์ผ๋ก, ์ด๋ฌํ ํ๋ก์ธ์ค๋ ํ์ต ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ฉด์ ๋ฐ๋ณต๋๋ค.
๋ค์ํ ์ธ์ด์ ๋ํ ๋ค์ํ task์์, ์๊ฑฐ๋ ์ค๊ฐ ์ ๋ ์์ labeled example๋ก PET๊ณผ iPET์ด ๋น์ง๋ ํ์ต, ์ง๋ ํ์ต๊ณผ ๊ฐ๋ ฅํ ์ค์ง๋ ํ์ต ๋ฐฉ์์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐํ๋๋ค.
2. Pattern-Exploiting Training
$M$์ vocabulary $V$์ mask token ___$ \in V$์ ํฌํจํ๊ณ ์๋ MLM์ด๊ณ , $\mathfrak{L}$์ target classification task์ ๋ํ label set์ด๋ค. task A์ ๋ํ ์ ๋ ฅ์ผ๋ก ๊ตฌ๋ฌธ์ sequence์ธ $\textbf{x} = (s_1, ..., s_k)$์ $s_i \in V^{*}$์ด๋ค. ์๋ฅผ ๋ค์ด, A๊ฐ ํ ์คํธ ์ถ๋ก ์ธ ๊ฒฝ์ฐ $k=2$์ด๋ค. ๋ ผ๋ฌธ์์๋ pattern์ด $\textbf{x}$๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ์ ํํ๊ฒ ํ๋์ mask token์ ๊ฐ๋ ๊ตฌ๋ฌธ ๋๋ ๋ฌธ์ฅ $P(\textbf{x}) \in V^{*}$๋ฅผ ์ถ๋ ฅํ๋ ํจ์ P๊ฐ ๋๋๋ก ์ ์ํ์๋ค. ๊ทธ๋ฆฌ๊ณ verbalizer์ ๊ฐ๊ฐ์ label์ M์ vocabulary๋ก๋ถํฐ ๋จ์ด๋ฅผ ๋งคํํ๋ injective function $v: \mathfrak{L} \to V$์ ์ ์ํ์๋ค. ์ด๋ฌํ $(P, v)$๋ฅผ pattern-verbalizer pair$($PVP$)$์ ๋ถ๋ฅด๊ธฐ๋ก ํ์๋ค.
PVP $(P, v)$์ ์ฌ์ฉํ๋ฉด task A๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํด๊ฒฐํ ์ ์๋ค. input $\textbf{x}$๊ฐ ์ฃผ์ด์ง๋ฉด, input representation $P(\textbf{x})$์ ์ป๊ธฐ ์ํด $P$๋ฅผ ์ ์ฉํ์๋ค. ๊ทธ ๋ค์์ $P(\textbf{x})$๋ $M$์ ์ํด ์ฒ๋ฆฌ๋์ด $v(y)$๊ฐ ๋ง์คํฌ๋ฅผ ๋์ฒดํ ๊ฐ๋ฅ์ฑ์ด ๊ฐ์ฅ ๋์ ๋ ์ด๋ธ $y \in \mathfrak{L}$์ ๊ฒฐ์ ํ๋ค. ์๋ฅผ ๋ค์ด, ๋ ๋ฌธ์ฅ $a$์ $b$๊ฐ ๋ฐ๋๋๋ ๋ฌธ์ฅ์ด๋ฉด ๋ผ๋ฒจ์ $(y_0)$๋ก, ๋ ๋ฌธ์ฅ์ด ๊ฐ์ ์๋ฏธ์ด๋ฉด ๋ผ๋ฒจ์ $(y_1)$์ผ๋ก ์ง์ ํ๋ task๋ผ๊ณ ์๊ฐํด๋ณด์. ์ด task์ ๋ํด ํจํด $P(a, b) = $ a? ___ b. ์ผ๋ก ๋ง๋ค๊ณ , $y_0$์ 'Yes', $y_1$์ 'No'๋ก ๋งคํํ๋ verbalizer $v$์ ํฉ์ณค๋ค. ๋ค์๊ณผ ๊ฐ์ ์์ ์ ๋ ฅ ์ง์ด ์ฃผ์ด์ก๋ค๊ณ ํด๋ณด์.
$\textbf{x} = $(Mia likes pie, Mia hates pie)
์ด์ task๋ ๋ ๋ฌธ์ฅ์ ์ฌ์ด์ 'No' ๋๋ 'Yes' ๋ ์ค ๋ฌด์์ด ๋ ์ ์ด์ธ๋ฆฌ๋์ง ํ์ ํ๋ task๋ก ๋ฐ๋์๋ค.
$P(\textbf{x}) = $ Mia likes pie? ____, Mia hates pie.
2-1. PVP Training and Inference
$\textbf{p} = (P, v)$๊ฐ PVP๋ผ๊ณ ํ์. ์์ ํ์ต์ $T$์ unlabeled example $D$์ ์ ๊ทผํ ์ ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์ ํํ ํ๋์ mask token๊ณผ $w \in V$๋ฅผ ํฌํจํ๋ ๊ฐ๊ฐ์ sequence $\textbf{z} \in V^{*}$์ ๋ํด, LM์ด masked position์์ $w$์ ํ ๋นํ๋ ๋น์ ๊ทํ ์ ์๋ฅผ $M(w | z)$๋ก ํ์ํ๋ค. ์ ๋ ฅ $\textbf{x}$๊ฐ ์ฃผ์ด์ง๋ฉด, label $l \in \mathfrak{L}$์ ๋ํ ์ ์๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด ๋ผ๋ฒจ์ ๋ํด softmax๋ฅผ ์ฌ์ฉํด์ ๋น๋ฏ๊ณผ ๊ฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ป์ ์ ์๋ค.
$q_{\textbf{p}}(l | x)$์ training example $(x, l)$์ ์ฌ์ค$($one-hot$)$ ๋ถํฌ ๊ฐ์ cross-entropy๋ฅผ ์ฌ์ฉํด์ $\textbf{p}$๋ฅผ ์ํ M์ fine-tuning์ ๋ํ loss๋ฅผ ์ ๊ณตํ๋ค.
2-2. Auxiliary Language Modeling
๋ ผ๋ฌธ์ ์์ฉ ์๋๋ฆฌ์ค์์, ์ค์ง ์ ์ ์์ training example๋ง์ด ์ฌ์ฉ ๊ฐ๋ฅํ๊ณ , catastrophic forgetting์ด ์ผ์ด๋ ์ ์์๋ค. ์ผ๋ถ PVP์ฉ์ผ๋ก fine-tuning๋ PLM์ ์ฌ์ ํ ํต์ฌ LM์ด๋ฏ๋ก language modeling์ ๋ณด์กฐ ์์ ์ผ๋ก ์ฌ์ฉํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ต์ข loss๋ ๋ค์์ ์์์ฒ๋ผ ๊ณ์ฐ๋๋ค. $L_{CE}$๋ cross-entropy loss๋ฅผ ์๋ฏธํ๊ณ , $L_{MLM}$์ language modeling loss๋ฅผ ์๋ฏธํ๋ค.
$L_{MLM}$์ด $L_{CE}$๋ณด๋ค ํฌ๊ณ , ์ด์ ์ ์คํ์์ $\alpha = 10^{-4}$์ด ์ผ๊ด๋๊ฒ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ค๋ค๋ ๊ฒ์ ์์๋๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ๋ชจ๋ ์คํ์ ์ฌ์ฉํ์๋ค. language modeling์ ์ํ ๋ฌธ์ฅ์ ์ป๊ธฐ ์ํด, unlabeled dataset $D$๋ฅผ ์ฌ์ฉํ์๋ค. ํ์ง๋ง, ๊ฐ๊ฐ์ $\textbf{x} \in D$์ ๋ํด ๋ฐ๋ก ํ์ต์ํค๋ ๋์ ์ $P(\textbf{x})$์ ๋ํด ํ์ต์์ผฐ๋ค. ์ฌ๊ธฐ์ LM์๊ฒ masked slot์ ๋ํด ์์ธกํ๋๋ก ์ง๋ฌธํ์ง ์์๋ค.
2-3. Combining PVPs
๋ ผ๋ฌธ์ ๋ฐฉ์์ large development set์ด ๋ถ์ฌํด์, ์ด๋ค PVP๊ฐ ์ ์๋ํ๋์ง ํ์ธํ์ง ๋ชปํ๋ ์ด๋ ค์์ด ์์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, knowledge distillation๊ณผ ์ ์ฌํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, task A๋ฅผ ๋ง์กฑํ๋ PVP์ set $P$๋ฅผ ์ ์ํ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด PVP๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ฌ์ฉํ์๋ค.
(1) ๋ถ๋ฆฌ๋ ๊ฐ๊ฐ์ $\textbf{p} \in P$์ ๋ํด์ LM $M_{\textbf{p}}$๋ฅผ fine-tune ํ์๋ค. $T$์ด ์์ ๊ฒ์ฒ๋ผ, fine-tuning์ PVP์ ์๊ฐ ๋ง๋ค๊ณ ํด๋ ๋น์ฉ์ด ๊ทธ๋ฆฌ ๋น์ธ์ง ์๋ค.
(2) unlabeled dataset $D$์์ ๋์จ example์ ๋ผ๋ฒจ๋งํ๊ธฐ ์ํด์ fine-tuned model์ ensembel $\mathfrak{M}={M_{\textbf{p}} | \textbf{p} \in P}$์ ์ฌ์ฉํ์๋ค. ๊ฐ๊ฐ์ example $\textbf{x} \in D$์ ๋ํ ์ ๊ทํ๋์ง ์์ ํด๋์ค ์ ์๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํฉ์ณค๋ค.
์ฌ๊ธฐ์ $Z = \sum_{\textbf{p} \in P} w(\textbf{p})$์ด๊ณ , $w(\textbf{p})$๋ PVP๋ฅผ ์ํ weighting term์ด๋ค. ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ ์๋ก ๋ค๋ฅธ weighting term์ ๋ํด ์คํ์ ์งํํ์๋ค. ๋ชจ๋ $\textbf{p}$์ ๋ํด $w(\textbf{p})=1$๋ก ์ค์ ํ๊ฑฐ๋ ํ์ต์ ํ๊ธฐ ์ ์ $\textbf{p}$๋ฅผ ์ฌ์ฉํด์ ์ป์ด์ง ์ ํ๋๋ฅผ $w(\textbf{p})$๋ก ์ค์ ํ์๋ค. ์ด ๋ ๊ฐ์ ๋ณ์๋ฅผ ๊ฐ๊ฐ uniform๊ณผ weighted๋ก ๋ถ๋ฅด๊ธฐ๋ก ํ์๋ค.
์์ ์ ์๋ฅผ softmax๋ฅผ ์ฌ์ฉํด์ ํ๋ฅ ๋ถํฌ $q$๋ก ๋ณํํ์๋ค. ๋ ผ๋ฌธ์์๋ temperature $T = 2$๋ก ์ค์ ํด์ ์ ํฉํ soft ๋ถํฌ๋ฅผ ์ป์๋ค. ๋ชจ๋ $(\textbf{x}, q)$๋ training set $\tau_{C}$๋ก๋ถํฐ ์ป์ด์ก๋ค.
(3) $\tau_{C}$์์ ํ์ค ์ํ์ค ๋ถ๋ฅ ํค๋๋ก PLM $C$๋ฅผ fine-tuningํด์ผ ํ๋ค.
์ด๋ ๊ฒ fine-tuned model $C$๋ task A์ ๋ถ๋ฅ๊ธฐ๋ก ์ฌ๊ฒจ์ง๋ค. ์์ ๋จ๊ณ๋ค์ ๋ค์์ ๊ทธ๋ฆผ 2์ ๋ชจ๋ ๋ํ๋ ์๋ค. ๊ทธ๋ฆผ 2์์ iPET์ ๋ถ๋ถ์ ์ ์ธํ 1, 2, 3์ด PET์ ์๋ ๋ฐฉ์์ด๋ค.
2-4. Iterative PET $($iPET$)$
๋ชจ๋ ๋ชจ๋ธ์ ์ง์์ ๋ถํดํ๋ ๊ฒ์ ์๋ก๋ผ๋ฆฌ ํ์ตํ ์ ์์์ ์๋ฏธํ๋ค. ์ด๋ค ํจํด์ ๋ค๋ฅธ ๊ฒ๋ณด๋ค ์ ์๋ํ์ง ์๋ ๊ฒ์ฒ๋ผ final model์ training set $\tau_{C}$๋ mislabeled data๋ฅผ ๋ง์ด ํจ์ ํ๊ณ ์๋ค.
์ด๋ฌํ ๋จ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด, PET์ ๋ฐ๋ณตํด์ ํ๋ iPET์ ๊ณ ์ํ์๋ค. iPET์ ํต์ฌ ์์ด๋์ด๋ ์ฆ๊ฐํด๊ฐ๋ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์ ์ฌ๋ฌ ๊ฐ์ generation์ ํ์ต์ํค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ด๋ฃจ๊ธฐ ์ํด, ๊ธฐ์กด์ ๋ฐ์ดํฐ์ $\tau$๋ฅผ $D$๋ก๋ถํฐ ์ ํ๋ ๋ผ๋ฒจ๋ง example์ ํ์ต๋ PET model์ ๋๋ค ์๋ธ์ ์ ์ฌ์ฉํด์ ํ๋์์ผฐ๋ค$($๊ทธ๋ฆผ 2a$)$. ๊ทธ ๋ค์์ ํ๋๋ ๋ฐ์ดํฐ์ $($b$)$์์ PET model์ ์๋ก์ด generation์ ํ์ต์์ผฐ๋ค$($๊ทธ๋ฆผ 2b$)$. ๊ทธ๋ฆฌ๊ณ ์ด ํ๋ก์ธ์ค๋ฅผ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ๋ค$($๊ทธ๋ฆผ 2c$)$.
3. Analysis
Combining PVPs
๋ ผ๋ฌธ์์๋ ๋จผ์ ์ผ๋ถ PVP๊ฐ ๋ค๋ฅธ PVP๋ณด๋ค ์ฑ๋ฅ์ด ํจ์ฌ ๋จ์ด์ง๋ ์ํฉ์ PET๊ฐ ๋์ฒํ ์ ์๋์ง ์กฐ์ฌํ์๋ค. $|\tau| = 10$์ ๋ํด, ํ 1์ PET์ ์ฑ๋ฅ์ fine-tuning ํ์ best์ worst ์ฑ๋ฅ๊ณผ ๋น๊ตํ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ knowledge distillation ์์ด ๊ฐ๋ณ PVP์ ํด๋นํ๋ PET ๋ชจ๋ธ์ ensemble์ ์ฌ์ฉํ์ฌ ์ป์ ๊ฒฐ๊ณผ๋ ํฌํจํ์๋ค. fine-tuningํ์๋, Yelp์์๋ best์ worst์ ์ฑ๋ฅ ๊ฐญ ์ฐจ์ด๊ฐ ์ปธ๋ค. ํ์ง๋ง, PET์ ์ด๋ฅผ ํด๊ฒฐํ ์ ์์ ๋ฟ๋ง ์๋๋ผ, ๋ชจ๋ task์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ํจํด๋ง ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์ ํ๋๊ฐ ํฅ์๋์๋ค. Distillation์ ensemble์ ๋ํด ์ผ๊ด์ ์ธ ํฅ์์ ๊ฐ์ ธ์๊ณ , ์ถ๊ฐ์ ์ผ๋ก, ์ต์ข ๋ถ๋ฅ๊ธฐ์ ํฌ๊ธฐ๋ฅผ ์ค์ฌ์ฃผ์๋ค. ๊ทธ์น๋ง PET์ uniform๊ณผ weighted ์ฌ์ด๋ ์ ์๋ฏธํ ์ฐจ์ด๋ฅผ ๋ฐ๊ฒฌํ์ง ๋ชปํ๋ค.
Auxiliary Language Modeling
๋ ผ๋ฌธ์์๋ PET์ ์ฑ๋ฅ์ ๋ํ auxiliary language modeling task์ ์ํฅ์ ๋ถ์ํ์๋ค. ๊ทธ๋ฆผ 3์ ๋ค ๊ฐ์ training set ํฌ๊ธฐ์ language modeling task๋ฅผ ์ถ๊ฐํ ๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ 10๊ฐ์ example์ ๋ํด์ ํ์ตํ ๋ auxiliary task๊ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์์๋๋ค. ๋ ๋ง์ ๋ฐ์ดํฐ์ ๋ํด์๋, auxiliary language modeling์ ์ค์์ฑ์ด ์ค์ด๋ค์๊ณ , ๋๋ก๋ ์ฑ๋ฅ ์ ํ๋ก ์ด๋๊ธฐ๋ ํ๋ค. ์ค์ง MNLI์ ๋ํด์๋ ์ผ๊ด๋๊ฒ ๋์ ๋๋ค๋ ๊ฒ์ ์์๋ค.
Iterative PET
๋ ๋ง์ generation์ ํ๋ iPET์ด ์ง์ง๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋์ง ํ์ธํ๊ธฐ ์ํด, ๋ค์์ ๊ทธ๋ฆผ 4์์ zero-shot ์ธํ ์์ model์ ๋ชจ๋ generation์ ํ๊ท ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ฐ๊ฐ์ ์ถ๊ฐ์ ์ธ ๋ฐ๋ณต์ emsemble์ ์ฑ๋ฅ์ ์ค์ ๋ก ํฅ์์ํค๊ณ ์์๋ค.
์ด์ ์์ฐ์ค๋ฝ๊ฒ ์ง๋ฌธ์ด ํ๋ ์๊ธธ ๊ฒ์ด๋ค. ๋ง์ฝ training set์ ํฌ๊ธฐ๊ฐ ์ปค์ง๊ณ ๋ ์ ์ ๋ฐ๋ณต์ ํ๊ฒ ๋๋ฉด ๋น์ทํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๊ฒ ๋ ๊น? ์ด ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ์ํด, generation 2์ 3์ skipํ๊ณ ๋ฐ๋ก $\mathfrak{M}_1$์์ $\mathfrak{M}_4$์ผ๋ก ๋์ด๊ฐ๋ค. ๊ทธ๋ฆผ 4์ ๋์์๋ ์ ์ ์ ๋ณด๋ฉด ์ด๊ฒ์ด ํ์ฐํ๊ฒ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง๋ฉฐ ํ์ต์ ์ ํฌ๊ธฐ๋ฅผ ์ ์ง์ ์ผ๋ก ๋๋ฆฌ๋ ๊ฑฐ์ ์ค์์ฑ์ ๊ฐ์กฐํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ด ๋ง์ example์ ๋๋ฌด ๋นจ๋ฆฌ labelingํ๋ฉด mislabeled training example์ ๋น์จ์ด ์ฌ๋ผ๊ฐ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ์๋ค.
In-Domain Pretraining
๋ ผ๋ฌธ์ ์ง๋ ํ์ต baseline๋ค๊ณผ ๋ฌ๋ฆฌ PET์ ์ถ๊ฐ์ ์ธ unlabeled dataset $D$์ ์ฌ์ฉํ์๋ค. ๋ฐ๋ผ์, PET์ ์ฑ๋ฅ ํฅ์์ ์ต์ํ์ ๋ถ๋ถ์ ์ง๋ํ์ต baseline์ ๋ํ PET์ ์ฑ๋ฅ ํฅ์์ ์ถ๊ฐ์ in-domain data์์๋ถํฐ ๋์จ ๊ฒ์ด๋ค.
์ด ๊ฐ์ค์ ์ฆ๋ช ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ RoBERTa๋ฅผ text classification ์ ํ๋๋ฅผ ํฅ์์ํค๋ ์ ํ์ ์ธ ๋ฐฉ๋ฒ ์ค ํ๋์ธ in-domain data์์ ์ถ๊ฐ์ ์ผ๋ก pre-train ํ์๋ค. ๋ค์์ ๊ทธ๋ฆผ 5๋ ์ง๋ ํ์ต ๋ฐฉ์๊ณผ PET์ ๋ํด in-domain training์ด ์์ ๋์ ์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. pre-training์ด ์ค์ ๋ก ์ง๋ ํ์ต ๋ฐฉ์์ ์ ํ๋๋ฅผ ํฅ์์ํค๊ธฐ๋ ํ์ง๋ง, ์ง๋ ํ์ต ๋ชจ๋ธ์ ์์ง ํ์คํ PET์ ๋ชป ๋ฏธ์น๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๊ฒ์ PET์ด ๋จ์ํ ์ถ๊ฐ์ ์ธ unlabeled data์ ์ฌ์ฉ์ผ๋ก ์ธํด ์ฑ๊ณตํ ๊ฒ์ด ์๋๋ผ๋ ๊ฒ์ ์ฆ๋ช ํด์ฃผ๊ณ ์๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, PET์ in-domain training์ PET์๊ฒ๋ ๋์์ด ๋์๋ค! ์ด๋ PET๊ฐ ํ์ค ๋ง์คํน๋ LM pre-training๊ณผ ๋ถ๋ช ํ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก unlabeled data๋ฅผ ํ์ฉํจ์ ๋ํ๋ธ๋ค.
์ถ์ฒ
https://aclanthology.org/2021.eacl-main.20.pdf