์ด ๋ ผ๋ฌธ์์๋ PET์ ์ด์ฉํ๋ค. ์ด PET์ ๋ํด ๊ถ๊ธํ๋ค๋ฉด ๋ค์์ ํฌ์คํธ๋ฅผ ํ์ธํ๊ธธ ๋ฐ๋๋ค.
PET ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: https://cartinoe5930.tistory.com/entry/PET-Exploiting-Cloze-Questions-for-Few-Shot-Text-Classification-and-Natural-Language-Inference-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0
The overview of this paper
GPT-3๋ ํ๊ธฐ์ ์ธ ์์ ๋ฐ์ดํฐ๋ก pre-train์ ์งํํ๊ณ , ๊ทธ์ ์์ํ๋ ์๋นํ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด ์์ฒญ๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, ์ด๋ ๊ฒ ๊ฑฐ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ LM์ ํ์ต์ํค๋ ค๋ฉด ๋ง๋ํ ์์ ๋น์ฉ์ด ๋ฐ์ํ๊ฒ ๋๋ค. ๊ทธ๋์ ์ฐ๊ตฌ์๋ค ๋๋ ์ฌ์ฉ์๋ค์๊ฒ ๋ง์ ์ ์ฝ์ ๊ฐ์ ธ๋ค์ฃผ๊ฒ ๋๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ 'PET'์ด๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ GPT-3๋ณด๋ค ํจ์ฌ ๋ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ก๋ ์ด๋ฅผ ์๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด 'PET'์ ๊ธฐ์กด์ textual input์ cloze question$($๋ฌธ์ฅ์ ๋น ๊ณต๊ฐ์ ์๋ง์ ๋จ์ด๋ฅผ ์ ์ถํ๋ ๋ฌธ์ $)$๊ณผ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ์ ์ต์ ํ ๋ฐฉ๋ฒ์ ํฉ์น ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ unlabeled data๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ํ ์ ์ด ์์ ํฌ๊ธฐ์ LM์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ค๊ฒ ๋์๋์ง ๋ํ ๋ถ์ํ์๋ค.
Table of Contents
1. Introduction
2. Pattern-Exploiting Training
2-1. PET with Multiple Masks
3. Analysis
1. Introduction
๊ธฐ์กด์ pre-trained LM๋ค์ ๊ฑฐ๋ํ ๋ฐ์ดํฐ์์ pre-train์ ์งํํ๊ณ , output layer์์๋ ์๋์ labeled data์ fine-tuning์ ํ๋ ๋ฐฉ์์ด์๋ค. ํ์ง๋ง, language modeling์ pretraining์ ์ผ๋ก๋ง ์ฐ์ํ ๋ฟ๋ง ์๋๋ผ, ๋ค์ํ task๋ค์ด cloze question์ผ๋ก ์ฌํ์ฑ๋ ์๋ ์๋ค. ์ด cloze question์ LM์ด ์ ์ ์ ๋ด์ง ์์ labeled data ์์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ํด์ค๋ค.
GPT-3๋ priming์ด๋ผ๋ ๊ณผ์ ์ ๊ฑฐ์น๋๋ฐ, ์ด๋ ์์ธก์ ๋ํด ์ ๋ ฅ์ ๋ํ ์ค๋ช ๊ณผ ๊ทธ์ ๋์ํ๋ ์ถ๋ ฅ์ ๋ฌธ์ฅ์ผ๋ก ํด์ ๋ฐ๊ฒ ๋๋ค. ํ์ง๋ง, ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ๋ ์ํ๋์ง ์๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ง๊ด์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ์ง๋ง, ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๋ค์์ ๋ ๊ฐ์ง ๊ฒฐ์ ์ ์ธ ๊ฒฐ์ ์ ๊ฐ์ง๊ณ ์๋ค.
- ์ด๋ฌํ ๋ฐฉ์์ ์ ์๋ํ๊ธฐ ์ํด์ ๊ฑฐ๋ํ LM์ ์๊ตฌํ๋๋ฐ, ์ด๋ ํ์ค ์ธ๊ณ์์ ์ค์ฉ์ ์ด์ง ์๊ณ , ์์ฒญ๋ ํ์๋ฐ์๊ตญ์ ๋จ๊ธฐ๊ฒ ๋๋ค.
- ๋๋ถ๋ถ์ LM์ context window๋ ๋ช๋ฐฑ ๊ฐ์ ํ ํฐ์ผ๋ก ์ ํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฏ๋ก ๋ช ๊ฐ์ง์ ์ ์ด์์ผ๋ก ํ์ฅ๋์ง ์๋๋ค.
์ด๋ฌํ priming์ ๋์์ด ๋๋ ๊ฒ์ด pattern-exploiting training ์ฆ, PET์ด๋ค. PET์ ๊ธฐ์กด์ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ fine-tuning์ cloze question์ ์ ์ฉํ ๋ฐฉ์์ผ๋ก, unlabeled data๋ฅผ ๋ ์๊ตฌํ๊ธฐ๋ ํ์ง๋ง, labeled data์ ๋นํด์ unlabeled data๋ ๋ ๊ตฌํ๊ธฐ ์ฝ๊ธฐ ๋๋ฌธ์, ์ค์ ์ธ๊ณ์ ๋ ์ ์ฉํ๊ธฐ ๋ซ๋ค. ๊ฒฐ์ ์ ์ผ๋ก, PET์ LM์ ์ํด ์ค์ง ํ๋์ ํ ํฐ์ผ๋ก ์์ธก๋ ๋๋ง ์๋์ด ๊ฐ๋ฅํ๋ฐ, ์ด๋ ๋ง์ task๋ค์ ๋ํด ์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํํ๋๋ฐ ์ฌ๊ฐํ ์ ์ฝ์ ์ฃผ๊ฒ ๋๋ค.
๋ ผ๋ฌธ์์๋ PET์ ๋ง์ ์์ token์ ์์ธกํ๋ task์ ๋ํด ์ ์ฉํด๋ณด์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ALBERT์ ํฉํด์ ์ฌ์ฉํ ๊ฒฐ๊ณผ, PET๊ณผ iPET์ GPT-3๋ณด๋ค ํจ์ฌ ๋ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํด์ ๋์ฑ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋, unlabeled data ์์ด๋ ์ด์ ๋น์ทํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๋ ์ ๊ณผ PET์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ด๋๋ฐ ๊ธฐ์ฌํ ์์ธ์ ๋ํ ์์ธํ ๋ถ์์ ์ ๊ณตํ์๋ค. ์ด๋ ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ณด๋ฉด ๋์ฑ ํ์ฐํ๊ฒ ๋ณด์ผ ๊ฒ์ด๋ค.
2. Pattern-Exploiting Training
$M$์ masked language model$($MLM$)$์ด๊ณ , $T$๋ vocabulary์ด๊ณ , $_ \in T$์ mask token์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ token sequence๋ $T^{*}$์ด๋ค. $\textbf{Z} \in T^{*}$์ ์ต์ $k$๊ฐ์ mask์ $t \in T$์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๋ ผ๋ฌธ์์๋ $q_{M}^{k}(t|\textbf{z})$์ $M$์ด $\textbf{z}$์ $k$๋ฒ์งธ ๋ง์คํน๋ ์์น์์ $t$์ ํ ๋นํ ํ๋ฅ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ softmax layer์ ์ง๋๊ธฐ ์ logit์ ๊ฐ์ $s_{M}^{k}(t|\textbf{z})$์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ PET์ด ์๊ตฌ๋ก ํ๋ ์ ๋ ฅ $x \in X$๋ฅผ ์ถ๋ ฅ $y \in Y$๋ก ๋งคํํ๋ pattern-verbalizer pairs $($PVPs$)$๋ฅผ ๊ณ ๋ คํ์๋ค. ๊ฐ๊ฐ์ PVP $\textbf{p}=(P,v)$๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋๋ค.
- pattern $P$ : $X \to T^{*}$๋ ์ ๋ ฅ์ ํ๋์ mask๋ฅผ ํฌํจํ๋ cloze question์ผ๋ก ๋ณํ
- verbalizer $v$ : $Y \to T$๋ ๊ฐ๊ฐ์ ์ถ๋ ฅ์ ํจํด์์์ task-specificํ ์๋ฏธ๋ฅผ ํํํ๋ ํ๋์ ํ ํฐ์ผ๋ก ๋งคํํจ.
๋ค์์ ๊ทธ๋ฆผ 2์ ํํ๋์ด ์๋ฏ์ด, PET์ ํต์ฌ ์์ด๋์ด๋ $v(y)$๊ฐ $P(x)$์ ๋ง์คํน๋ ์์น์์ "์ฌ๋ฐ๋ฅธ" ํ ํฐ์ผ ํ๋ฅ ๋ก๋ถํฐ $y$๊ฐ $x$์ ๋ํ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ผ ํ๋ฅ ์ ๋์ถํ๋ ๊ฒ์ ๋๋ค. ์ด ๊ทธ๋ฆผ์ ์์ธํ ์ดํด๋ณด๋ฉด, ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ฌป๋ task๋ก, $x_2$: '์ ๊ฐ๊ฐ ์์นํ๋ค'์ $x_1$: '์ ๊ฐ๊ฐ ํ๋ฝํ๋ค' ๋ผ๋ ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๊ตฌํ๋ task์ด๋ค. ๋ ๋ฌธ์ฅ ์ฌ์ด์๋ ๊ด๊ณ๊ฐ ์์ผ๋ฏ๋ก $y$: 'not entailment'๊ฐ ์ ๋ต์ด๋ค. ์ด ๋ฌธ์ ๋ฅผ cloze question $P(x)$๋ก ๋ณํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. $P(x)$: ์ ๊ฐ๊ฐ ์์นํ๋ค? __, ์ ๊ฐ๊ฐ ํ๋ฝํ๋ค. ์ด๋ ๊ฒ ์ ๋ ฅ์ ํ๋์ mask๋ฅผ ํฌํจํ๋ cloze question์ผ๋ก ๋งคํํ๋ ๊ฒ์ $P$, pattern์ด๋ผ ํ๋ค. ์ด์ ๋น์นธ์ ๋ค์ด๊ฐ ์ ๋ต์ 'not entailment'์ธ๋ฐ, ๋น์นธ์ ํ๋์ด๋ฏ๋ก, ์ด ์ ๋ต์ ํ๋์ ํ ํฐ์ผ๋ก ๋ณํ์์ผ์ค์ผ ํ๋ค. ์ด ์ญํ ์ ํ๋ ๊ฒ์ด $v$, verbalizer์ด๋ค.
์ด๋ฐ ๊ฐ๋ ์ ๊ธฐ๋ฐ์ ๋์ด, $x$๊ฐ ์ฃผ์ด์ก์ ๋, $y$์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ $q_{\textbf{p}}$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
์ฌ๊ธฐ์ $s_{\textbf{p}}(y|x)=s_{M}^{1}(v(y)|P(x))$์ $P(x)$์ masked position์์์ $v(y)$์ raw score์ด๋ค.
task๊ฐ ์ฃผ์ด์ก์ ๋, ํฐ development set์ด ์๋ค๋ฉด PVP๋ฅผ ํ์ ํ๋ ๊ฒ์ ์ ์ํํ๋ ๊ฒ์ ์ด๋ ต๋ค. ๊ทธ๋์, PET์ ๋ค์ค์ PVPs $\textbf{P}={\textbf{p}_1,...,\textbf{P}_n}$์ ์กฐํฉ์ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- ๊ฐ๊ฐ์ PVP $\textbf{p}$์ ๋ํด, MLM์ $y$์ $q_{\textbf{p}}(y|x)$ ๊ฐ์ cross entropy๋ฅผ ์ต์ํํจ์ผ๋ก์จ ํ๋ จ ์์ $(x,y)$์์ fine-tuningํ๋ค.
- fine-tuning๋ MLM์ ensemble์ unlabeled example์ ๋ํด ๋ผ๋ฒจ๋ง์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ๊ฐ๊ฐ์ unlabeled example $x \in X$๋ ํ๋ฅ ๋ถํฌ์ ๋ฐ๋ผ์ soft label๋ก ๋ผ๋ฒจ๋ง์ด ๋๋ค. ๋ค์์ ์์ 2๊ฐ ์ด์ ๋ํ ์์์ด๋ค. ์์ ์์ 1๊ณผ ์ ์ฌํ๊ฒ, $w_{\textbf{p}}$๋ ํ๋ จ ์ ์ ํ๋ จ ์ธํธ์์ $\textbf{p}$๋ก ๋ฌ์ฑํ ์ ํ๋์ ๋น๋กํ๋ ๊ฐ์ค์น ๊ฐ์ด๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์จ soft-labeled dataset์ ๊ธฐ์กด์ ์ํ์ค ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ตํ๋๋ฐ ์ฌ์ฉ๋๋๋ฐ, ๋ถ๋ฅ๊ธฐ์ ์ถ๋ ฅ๊ณผ $q_{\textbf{p}}$ ๊ฐ์ cross entropy๋ฅผ ์ต์ํ์ํด์ผ๋ก์จ ํ์ตํ๋ค.
์์ 2๋ฒ๊ณผ 3๋ฒ ๋จ๊ณ๋ knowledge distilation$($์ฐธ๊ณ ๋ฌธํ$)$๊ณผ ๋งค์ฐ ์ ์ฌํ๋ค. ์ค์ํ ๊ฒ์, ์ด ๊ณผ์ ์ด ๋ชจ๋ MLM์ ensemble์ ๋์๊ฐ๋์ ๋ฉ๋ชจ๋ฆฌ์ ๋จธ๋ฌด๋ฅด๊ฒ ํ ํ์์์ด ์์ฐจ์ ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์, ํ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ ์ฌ์ฉํ์ง ์๋๋ค.
MLM์๊ฒ ์๋ก ๋ค๋ฅธ ํจํด์์ ํ์ตํ ๊ธฐํ๋ฅผ ์ฃผ๊ธฐ ์ํด, iPET์ ์ ์ํ์๋ค. ์ด iPET์ ์ฌ๋ฌ ์ธ๋์ ๋ชจ๋ธ์ด ์ด์ ์ธ๋์์ ๋ ์ด๋ธ์ด ์ง์ ๋ ์ฆ๊ฐํ๋ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์ ์ ๋ํด ํ๋ จ๋๋ PET์ ๋ฐ๋ณต ๋ณํ์ด๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํ๋๋ค: ์ฒซ ๋ฒ์งธ๋ก, MLM์ ensemble์ ๊ธฐ์กด์ PET์์ ํ๋ จ๋๋ค. ๊ฐ๊ฐ์ ๋ชจ๋ธ $M_i$์ ๋ํด ๋ค๋ฅธ ๋ชจ๋ธ์ ๋๋ค ์๋ธ์ ์ ์ฌ์ฉํด์ ์๋ก์ด ํ๋ จ ์ $T_i$๋ฅผ ์์ฑํ๋ค. ๊ฐ๊ฐ์ $M_i$๋ $T_i$์์ ์ ์ง๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณต๋๋ฉฐ ๋งค๋ฒ $T_i$์ ์์ ์๊ฐ ์ผ์ ํ ๋น์จ๋ก ์ฆ๊ฐํ๋ค.
2-1. PET with Multiple Masks
PET์ ์ค์ํ ์ ์ฝ์ verbalizer $v$๊ฐ ์ค์ง ํ๋์ token์ผ๋ก ๋งคํ๋์ด์ผ ํ๋ค๋ ๊ฒ์ธ๋ฐ, ์ด๋ ๋ค์ํ task์ ๋ํด์ ๋ถ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ verbalizer์ $v : Y \to T^{*}$์ผ๋ก ์ผ๋ฐํ์์ผฐ๋ค. ์ด๊ฒ์ ์ถ๋ก ๊ณผ ํ๋ จ์ ๋ํด์ ์กฐ๊ธ์ ์์ ์ ์๊ตฌํ๋ค. ๋ ผ๋ฌธ์์๋ ์ถ๋ ฅ ๊ณต๊ฐ์ด ๊ฐ ์ ๋ ฅ์ ๋ํด ๋์ผํ๋ค๊ณ ๊ฐ์ ํ์ง ์๋๋ค๋ ์ ์์ PET์ ๋ ์ผ๋ฐํํ๋ค: ๊ฐ $x \in X$์ ๋ํด, ์ ๋ ฅ์ผ๋ก $x$๊ฐ ์์ ๋ ๊ฐ๋ฅํ ์ถ๋ ฅ ์ $Y_{x} \subseteq Y$๋ฅผ ๋ช ์ํ์๋ค. PVP $\textbf{P}=(P,v)$๊ฐ ์ฃผ์ด์ง๋ฉด, ์ด๋ ํ ๊ธธ์ด์ ์ถ๋ ฅ $Y_x$๋ฅผ ํํํ ์ ์๋ ์ต๋ ๊ธธ์ด์ ํ ํฐ ์ $l(x)=max_{y \in Y_{x}}|v(y)|$๋ฅผ ์ ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ $P^{k}(x)$๋ mask token์ด $k$๊ฐ์ ๋ง์คํฌ๋ก ๋์ฒด๋ $P(x)$๊ฐ ๋๋ค.
์ค์ ์์๋ฅผ ๋ค์ด๋ณด๋ฉด, ์์์ ๋ฆฌ๋ทฐ์ ๋ํ ์ด๋ถ์ ๊ตฌ๋ฌธ ๋ถ๋ฅ๋ฅผ ๋ผ๋ฒจ $Y={+1,-1}$๋ก ํ๋ค๊ณ ์น์. pattern $P(x)=x.$It was __. ๊ณผ 'great'์ ๋ํด์๋ +1๋ก, 'terri $\cdot$ble'์ ๋ํด์๋ -1๋ก ๋งคํํ๋ verbalizer $v$๋ฅผ ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ์ MLM์ tokenizer์ 'terrible'์ด๋ผ๋ ๋จ์ด๋ฅผ 'terri'์ 'ble' ์ด๋ ๊ฒ ๋ ๊ฐ์ ํ ํฐ์ผ๋ก ๋๋๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ $x$์ ๋ํด $l(x)=2$๋ก ๋๊ณ , ์ด์ ๋ํ $P^{2}(x)$๋ ๋ค์์ ๊ทธ๋ฆผ 3์ $($a$)$์ ๋ฌ์ฌ๋์ด ์๋ค.
Inference
$x \in X, y \in Y_{x}$์ $|v(y)|=k$์ ๋ํด, ๋ ผ๋ฌธ์์๋ $q_{\textbf{p}}(y|x)$๋ฅผ autoregressiveํ ๋ฐฉ์์ผ๋ก ์ฌ์ ์ํ์๋ค. $P^{k}(x)$์์๋ถํฐ ์์ํด์, $k$๊ฐ์ ์ฐ์์ ์ธ ์์ธก์ ์ํํ๊ณ , ์ฌ๊ธฐ์ ํญ์ MLM์ confidence์ ๊ธฐ๋ฐ์ ๋๊ณ ๋ค์์ผ๋ก ์์ธกํด์ผ ํ token์ ์ ํํ์๋ค. ์ด๋ฅผ $q_{\textbf{p}}(y|x)=q(v(y)|P^{k}(x))$์ผ๋ก ์ค์ ํด๋๊ณ ์ฌ๊ธฐ์ ์ด ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๊ฒฐ์ ๋๋ค.
$j=arg max_{i=1}^{k}q_{M}^{i}(t_i|\textbf{z})$์ด๊ณ , $\textbf{z}^{'}$๋ $\textbf{z}_{j}^{'}=t_j$์ $t^{'}=t_1 ... t_{j-1}t_{j+1} ... t_k$๋ฅผ ์ ์ธํ $\textbf{z}$์ด๋ค. ๊ธฐ์กด์ PET์๋ ๋ฌ๋ฆฌ $q_{\textbf{p}}$๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด ์๋๋ผ์ ๋ชจ๋ ํฉ์ณ๋ 1์ด ๋์ง ์์ ์๋ ์๋ค.
๊ตฌ๋ฌธ ๋ถ๋ฅ ์์ ์ ๋ํด์, ๊ทธ๋ฆผ 3์ ์ด๋ป๊ฒ $q_{\textbf{p}}(-1|x)$๊ฐ ๊ณ์ฐ๋๋์ง ๋ณด์ฌ์ฃผ๊ณ ์๋ค. $|v(y)|=|{terri, \cdot ble}|=2$์ด๋ฏ๋ก, ์ฒ์์ $\textbf{z}=P^{2}(x)$๋ฅผ ์ฌ์ฉํด์ $v(y)$์ ๊ฐ๊ฐ์ ํ ํฐ์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํ๋ค $($๊ทธ๋ฆผ 3์ a$)$. ๊ทธ ํ์ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ํ ํฐ์ ์ ํํด์, ๊ทธ์ ๋์ํ๋ ์์น์ mask token์ ๋ฃ์ด์ฃผ๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์จ cloze question $\textbf{z}^{'}$์ ์ฌ์ฉํด์ ๋จ์ ํ ํฐ๋ค์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํ๋ค $($๊ทธ๋ฆผ 3์ b$)$. $y=-1$์ ๋ํ ์ ๋ฐ์ ์ธ ์ ์๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
$q_{\textbf{p}}(-1|x)=q_{M}^{2}(\bullet ble|\textbf{z}) \cdot q_{M}^{1}(terri|\textbf{z}^{'})$
Training
์์ 3์ฒ๋ผ ๊ฐ๊ฐ์ ํ๋ จ ์์ $(x,y)$์ ๋ํด $q_{\textbf{p}}(y|x)$๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ ์์ฒญ ๋ง์ ๊ณ์ฐ๋์ ์๊ตฌํ๋ค. ๋ชจ๋ ํ๋ฅ ๋ค์ ๋ํด ํ๋์ forward pass๋ก ๊ณ์ฐํ๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด์๋, $q_{\textbf{p}}(y|x)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ทผ์ฌํด์ผ ํ๋ค.
- ํญ์ ์ด๋ ํ ์ถ๋ ฅ์ด๋ ํํํ ์ ์๋ ์ต๋ ๊ฐ์์ mask token์ ์ฃผ์ ํด์ผ ํจ.
- ๊ฐ๊ฐ์ $y^{'} \in Y_{x}$์ ๋ํด, $v(y^{'})=t_1 ... t_k$์ ์๋ ๋ชจ๋ ํ ํฐ์ ๋ณ๋ ฌ๋ก ์์ธกํด์ผ ํ๊ณ , ์ฌ๊ธฐ์ ๋ชจ๋ $l(x)-k$๊ฐ์ ๋ถํ์ํ ๋ง์คํฌ ํ ํฐ์ ๋ํ ์์ธก์ ๋ฌด์ํด์ผ ํจ.
์์ ๋ค์๋ ์ค์ ์์์ ์ ์ฉํด ๋ณด๋ฉด, ์ด๊ฒ์ ์ ์ $q_{\textbf{p}}(y|x)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ทผ์ฌํ๋ค.
์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํํ๋ฉด, ๊ทธ๋ฆผ 3์ $($a$)$์์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ฒ๋ผ ์ค์ง cloze question $\textbf{z}=P^{2}(x)$๋ฅผ ํ ๋ฒ ์ํํ๋ ๊ฒ์ ์๊ตฌํจ์ผ๋ก์จ ํ๋์ forward pass๋ก ๋๋๊ฒ ๋๋ค.
$\tilde{q}_{\textbf{p}}$์ด $Y_x$์ ๋ํ ํ๋ฅ ๋ถํฌ๊ฐ ์๋๋ฏ๋ก, ๊ต์ฐจ ์ํธ๋กํผ๋ ๋ชจ๋ธ์ ์์ธก์ ์ํฅ์ ๋ฏธ์น์ง ์์์๋ ๋ถ๊ตฌํ๊ณ ์ถ๋ ฅ ๊ณต๊ฐ์ ์ผ๋ถ๊ฐ ์๋ ์ํ์ค $\textbf{z} \notin v(Y_x)$์ ํ ๋น๋ ํ๋ฅ ์ ์ค์์ผ๋ก์จ ์ต์ํํ ์ ์์ผ๋ฏ๋ก ์ด์์ ์ธ ํ๋ จ ๋ชฉํ๊ฐ ์๋๋ค. ๋ ผ๋ฌธ์์๋ ๋์ ์ ๋ค์ค ํด๋์ค hinge loss๋ฅผ ์ ํํ๊ณ ์ต์ํํ์๋ค.
์ฆ, $y$์ log probability์ ์ถ๋ ฅ $y^{'} \in Y_x \setminus {y}$์ log probability ์ฌ์ด์ ์ฐจ์ด๊ฐ ์ ์ด๋ 1์ด์ด์ผ ํ๋ค.
๋ณธ ํฌ์คํธ์์๋ ์คํ์ ๊ดํ ๋ถ๋ถ์ ๋ค๋ฃจ์ง ์์ผ๋ฏ๋ก ์์ธํ ๋ค๋ฃจ์ง๋ ์๊ฒ ์ผ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ค์์ ํ 1๊ณผ ๊ฐ๋ค.
3. Analysis
๋ ผ๋ฌธ์์๋ few-shot performance์ ๋ํด์ ๋ค์ํ factor๋ค์ ์ค์์ฑ์ ์กฐ์ฌํ์๋ค.
- pattern๊ณผ verbalizer ์ ํ
- unlabeled data์ labeled data ์ฌ์ฉ
- ์ฌ์ฉ๋๋ language model์ ํน์ฑ
๊ทธ๋ฆฌ๊ณ multiple mask๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ ์๋ ์์ ๋ PET์ ๋ํด ์์ธํ๊ฒ ์ดํด๋ณด๊ณ , ๋ค๋ฅธ baseline๋ค๊ณผ ์ด๋ ํ ์ฐจ์ด๊ฐ ์๋์ง ๋น๊ตํ์๋ค. ๋ง์ง๋ง์ผ๋ก๋, ์๋ก ๋ค๋ฅธ training example์ ์ ํํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ์ธก์ ํ์๋ค.
3-1. Patterns
task๋ฅผ cloze question์ผ๋ก ๋ณํํ๋ ๊ฒ์ ์ฑ๋ฅ์ ์ปค๋ค๋ ์ํฅ์ ๋ฏธ์น๋ค. ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด ์ธ ๊ฐ์ PVP๋ฅผ ๋น๊ตํ์๋ค: ๋ ผ๋ฌธ์์ ์ ์ํ $\textbf{p}_{ours}$, GPT-3์ ์ ์ฉํ single PVP $\textbf{p}_{GPT-3}$, ๊ทธ๋ฆฌ๊ณ ๋์ ํฉ์น $\textbf{p}_{comb}$. ๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 1์ ๋ํ๋ ์๋ค.
์ฑ๋ฅ์์ ๋ณด์ฌ์ฃผ๋ ์ด๋ฌํ ์์ฒญ๋ ์ฐจ์ด๋ task๋ฅผ ์ผ๋ง๋ ์ข์ ๋ฐฉ์์ผ๋ก cloze question์ผ๋ก ๋ํ๋ด๋๊ฐ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ํ ์ ํฉํ pattern์ ์ ์ ์ ์คํ๊ฒ ์กฐ์ ํ๋ ๊ฒ์ ์ค์์ฑ ๋ํ ๊ฐ์กฐํ๋ค.
3-2. Unlabeled Data Usage
GPT-3์๋ ๋ฌ๋ฆฌ PET์ iPET์ ์ํด unlabeled data๋ฅผ ํ์๋ก ํ๋ค. unlabeled data๋ฅผ ์ด์ฉํด์ ๋ค์ generation์ ์ํ training set์ ์์ฑํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ PET์ ๋ํด unlabeled data์ ์ค์์ฑ์ ์กฐ์ฌํ์๋ค. ์ด๋ฅผ ์ํด, PET์์ ์ต์ข ๋ถ๋ฅ๊ธฐ์ ์ฑ๋ฅ์ ๊ฐ๋ณ PVP์ ํด๋นํ๋ ๋ชจ๋ธ์ ์์๋ธ์ ์ง์ ์ฌ์ฉํ๋ ์ฑ๋ฅ๊ณผ ๋น๊ตํ์๋ค. ์ด ensemble์ ํ ๋ฒ์ ์ฌ์ฉํ๋ ๊ฒ์ unlabeled data์ ๋ํ ํ์๋ฅผ ์์ ์ฃผ์ง๋ง, ์ด ensemble์ distilled model๋ณด๋ค ๋ ํฌ๊ธฐ ๋๋ฌธ์, PET์ ๊ธฐ๋ณธ ์ธํ ์ ๋ฐ๋ผ์ ๊ฐ PVP์ ๋ํด์ ์ธ ๊ฐ์ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. distillation์ ์ ์ธํ ๊ฒฐ๊ณผ๋ ํ 2์ ์๋์ชฝ์ ๋ํ๋์๋ค. ์ธ ๊ฐ์ task์ ๋ํ ํ๊ท ์ ensemble์ด distilled classifier๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๋ฐ๋ผ์ ๋ชฉํ๊ฐ ์ค์ง ์ข์ ์ฑ๋ฅ์ ๊ฐ๊ธฐ ์ํด์๋ผ๋ฉด unlabeled data๋ ๋ถํ์ํ๋ค. ํ์ง๋ง, ์ด๋ฌํ ๋ฐฉ์์ final classifier๋ก ๊ฐ๋ฒผ์ด ๋ชจ๋ธ์ ํ์๋ก ํ๋ค. ๋ค์์ ๊ทธ๋ฆผ 4๋ iPET์ ์ฌ์ฉํด์ multiple generation์ ํ์ต์ํค๋ ๊ฒ์ ์ด์ต์ ๋ณด์ฌ์ค๋ค.
3-3. Labeled Data Usage
๋ค์์ผ๋ก, ์ด๋ป๊ฒ labeled data๊ฐ ์ฌ์ฉ๋๋์ง์ ๋ํ ํจ๊ณผ์ ๋ํด ๋ถ์ํ์๋ค. ์ด labeled data๋ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๊ณผ PET ๊ฐ์ ์ฐจ์ด์ ์ด๋ค. ์ฒซ ๋ฒ์งธ๋ก, PET with supervised learning๊ณผ PET with fully unsupervised learning๊ณผ ๋น๊ตํ์๋ค. 32๊ฐ์ ์์ ๊ฐ ์ฃผ์ด์ง๊ณ , PET์ ๋ชจ๋ baseline์ ๋ฅ๊ฐํ์๋ค. ๋ค์์ ํ 3์ ๋ณด๋ผ.
๋ค์์ผ๋ก, PET์ priming๊ณผ ์ง์ ์ ์ผ๋ก ๋น๊ตํ๋ ค ํ์ผ๋ ๋ถ๊ฐ๋ฅํ์๋ค. ์๋ํ๋ฉด, ALBERT๋ ์ต๋ 512๊ฐ์ token๊น์ง๋ง ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ฐ, ์ด ์ ์ ์์ ํ ํฐ์ผ๋ก๋ 32๊ฐ์ ์์ ๋ฅผ ๋ชจ๋ ํํํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด XLNet์ ์ฌ์ฉํ์๋ค. ์์ ํ๋ฅผ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด XLNet์ ๊ธฐ์กด์ ALBERT๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง์ง๋ง, XLNet with PET์ priming๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
์ถ๊ฐ์ ์ผ๋ก, priming์ ํจ๊ณผ๋ฅผ ํ์ธํ๊ธฐ ์ํด GPT-3์ ๊ฒฐ๊ณผ๋ฅผ ์ข ๋ ์์ธํ ์ดํด๋ณด์๋ค. ์ด๋ฅผ ์ํด, ๋ค์์ ๊ทธ๋ฆผ 5๋ GPT-3 with 32 examples์ GPT-3 with single example์ ๋ํด์ ์์ธํ๊ฒ ์ดํด๋ณด์๋ค. ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด 32 examples๋ ๋งค์ฐ ๊ฒฝ๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ค task์ ๋ํด์๋, ์์ ํฌ๊ธฐ์ ๋ชจ๋ธ์ example์ ๋ ํฌ์ ํ๋ ๊ฒ์ด ์คํ๋ ค ์ฑ๋ฅ์ ๋จ์ด๋จ๋ฆด ์๋ ์๋ค.
๊ทธ๋ฆผ 5์ ์๋์ชฝ ํ์ PET์ ์ฌ์ฉํด์ ํ๋ จ๋ ALBERT์ ๋ชจ๋ task์ ๋ํด fully unsupervised๋ ALBERT์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง, ์ฌ์ฉ๋ model๊ณผ PVP์ ์ฐจ์ด ๋๋ฌธ์ ๊ฒฐ๊ณผ๋ ์ง์ ์ ์ผ๋ก ๋น๊ต๊ฐ ๋ถ๊ฐํ์ง๋ง, PET์ priming์ ๋นํด ๋์ฑ ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๊ณ , ์ด๋ ํ task์ ๋ํด์๋ ์ฑ๋ฅ์ด ์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ ์์๋ค.
3-4. Model Type
๋ค์์ผ๋ก ์ฌ์ฉ๋๋ LM์ ์ฐจ์ด๊ฐ PET์ ๋ฏธ์น๋ ์ํฅ์ ํ์ ํ๊ธฐ ์ํด, ALBERT, RoBERTa, GPT-2 medium์ ๋น๊ตํ์๋ค. ์ด ์ธ ๊ฐ์ ๋ชจ๋ธ์ PET๊ณผ ํจ๊ป ํ๋ จํ ๊ฒฐ๊ณผ, ๋ค์์ ํ4์ ๋ฐ๋ฅด๋ฉด PET์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ํด ALBERT๋ ๊ฒฐ์ ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์๋ ํ๋ฅผ ๋ณด๋ฉด GPT-2๋ ์ธ ๊ฐ์ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ์ข์ง ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๋ฌํ ์ฑ๋ฅ ํ๋ฝ์ GPT-3์ GPT-2๊ฐ unidirectionalํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ์ ์ด ๋ ๊ฐ์ sequence๋ฅผ ๋น๊ตํ๋ task๋ฅผ ์ด๋ ต๊ฒ ๋ง๋ ๋ค. ํ์ง๋ง, GPT-2์ ๋ค๋ฅธ ๋ ๋ชจ๋ธ ๊ฐ์ ๋ถ์์ ์ธ ์ฐจ์ด์ ์ธ ์ฌ์ ํ์ต๋ ๋ฐ์ดํฐ์ ์ ์ฐจ์ด ๋ํ ์ง๊ณ ๋์ด๊ฐ์ผ ํ๋ค. unidirectional์ด GPT-2 ์ฑ๋ฅ ์ ํ์ ์์ธ์ธ์ง ์ฌ๋ถ์ ๊ด๊ณ์์ด ๊ธฐ๋ณธ LM์ bidirectional์ PET์ ์ค์ํ๋ค. ๋ง์คํฌ ํ ํฐ์ด ๋งจ ๋์ ์์ด์ผ ํ ํ์์ฑ์ ์์ ๊ณ ํจํด ์์ฑ์ ๋ ๋ง์ ์ ์ฐ์ฑ์ ํ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค.
3-5. PET with Multiple Masks
๋ ผ๋ฌธ์์๋ ์ถ๋ ฅ์ผ๋ก single token๋ณด๋ค ๋ง์ token์ ์๊ตฌํ๋ task๋ฅผ ์ํํ ์ ์๋๋ก PET์ ์์ ํ์๋ค. ์ด๋ฌํ ์์ ์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด, ์ด๋ฌํ ์กฐ๊ฑด์ ์๊ตฌํ๋ ์ธ ๊ฐ์ task์ ๋ํด ์กฐ์ฌํด๋ณด์๋ค: COPA, WSC, ReCoRD. ๋ ผ๋ฌธ์์๋ ํ ๋น๋ ํ๋ฅ ์ ์์๋๋ก ํ ํฐ์ ์์ธกํ๋ ๋์ฝ๋ฉ ์ ๋ต์ธ max-first๋ฅผ ๋ ๊ฐ์ง ๋์๊ณผ ๋น๊ตํ๋ค: left-to-right decoding์ ๋ง์ autoregressive model์ ๋ํด ์ผ๋ฐ์ ์ด๊ณ , ๋ชจ๋ ํ ํฐ์ ๋์์ ๋์ฝ๋ฉํ๋ parallel์ ํ๋ จ ์ค์ ๋๋๊ฒ ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก, training loss๋ฅผ ์ธก์ ํ๊ธฐ ์ํด, PET with untrained ALBERT์ ๋น๊ตํ์๋ค.
์ด์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 5์ ๋ํ๋ ์๋ค. PET์ ์ธ ๊ฐ์ task์ ๋ํด untrained ALBERT์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ์๋ค. distillation์ ์ํํ์ง ์๋ ๊ฒ์ COPA์ ๋ํด ์ฑ๋ฅ์ ํด๋ฅผ ๋ผ์ณค์ง๋ง, WSC์ ReCoRD์ ๋ํด์ ์ฝ๊ฐ์ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋๋ค. ๋ ผ๋ฌธ์์ ์ ์๋ decoding ์ ๋ต์ ์ ๋ฐ์ ์ผ๋ก parallel decoding๋ณด๋ค ์ฐ์ํ๋ค.
์ฐธ๊ณ ๋ฌธํ
https://littlefoxdiary.tistory.com/62
https://arxiv.org/abs/2009.07118