์ด ๋ ผ๋ฌธ์์๋ PET์ ์ด์ฉํ๋ค. ์ด PET์ ๋ํด ๊ถ๊ธํ๋ค๋ฉด ๋ค์์ ํฌ์คํธ๋ฅผ ํ์ธํ๊ธธ ๋ฐ๋๋ค.
PET ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: https://cartinoe5930.tistory.com/entry/PET-Exploiting-Cloze-Questions-for-Few-Shot-Text-Classification-and-Natural-Language-Inference-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0
PET: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
์ด์ ์ ๋ฆฌ๋ทฐํ๋ ๋ ผ๋ฌธ์ธ 'It's Not Just Size That Metters; Small Language Models Are Also Few-Shot Learners'์์ ์ฌ์ฉ๋ PET์ ๋ํด ๊ถ๊ธํด์, ์ด๋ฒ ํฌ์คํธ์์๋ PET์ ์ฒ์์ผ๋ก ์๊ฐํ ๋ ผ๋ฌธ์ธ 'Exploiting Cloze Questions f
cartinoe5930.tistory.com
The overview of this paper
GPT-3๋ ํ๊ธฐ์ ์ธ ์์ ๋ฐ์ดํฐ๋ก pre-train์ ์งํํ๊ณ , ๊ทธ์ ์์ํ๋ ์๋นํ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด ์์ฒญ๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ํ์ง๋ง, ์ด๋ ๊ฒ ๊ฑฐ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ LM์ ํ์ต์ํค๋ ค๋ฉด ๋ง๋ํ ์์ ๋น์ฉ์ด ๋ฐ์ํ๊ฒ ๋๋ค. ๊ทธ๋์ ์ฐ๊ตฌ์๋ค ๋๋ ์ฌ์ฉ์๋ค์๊ฒ ๋ง์ ์ ์ฝ์ ๊ฐ์ ธ๋ค์ฃผ๊ฒ ๋๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ 'PET'์ด๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ GPT-3๋ณด๋ค ํจ์ฌ ๋ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ก๋ ์ด๋ฅผ ์๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด 'PET'์ ๊ธฐ์กด์ textual input์ cloze question$($๋ฌธ์ฅ์ ๋น ๊ณต๊ฐ์ ์๋ง์ ๋จ์ด๋ฅผ ์ ์ถํ๋ ๋ฌธ์ $)$๊ณผ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ์ ์ต์ ํ ๋ฐฉ๋ฒ์ ํฉ์น ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ unlabeled data๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ํ ์ ์ด ์์ ํฌ๊ธฐ์ LM์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ค๊ฒ ๋์๋์ง ๋ํ ๋ถ์ํ์๋ค.
Table of Contents
1. Introduction
2. Pattern-Exploiting Training
2-1. PET with Multiple Masks
3. Analysis
1. Introduction
๊ธฐ์กด์ pre-trained LM๋ค์ ๊ฑฐ๋ํ ๋ฐ์ดํฐ์์ pre-train์ ์งํํ๊ณ , output layer์์๋ ์๋์ labeled data์ fine-tuning์ ํ๋ ๋ฐฉ์์ด์๋ค. ํ์ง๋ง, language modeling์ pretraining์ ์ผ๋ก๋ง ์ฐ์ํ ๋ฟ๋ง ์๋๋ผ, ๋ค์ํ task๋ค์ด cloze question์ผ๋ก ์ฌํ์ฑ๋ ์๋ ์๋ค. ์ด cloze question์ LM์ด ์ ์ ์ ๋ด์ง ์์ labeled data ์์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ํด์ค๋ค.
GPT-3๋ priming์ด๋ผ๋ ๊ณผ์ ์ ๊ฑฐ์น๋๋ฐ, ์ด๋ ์์ธก์ ๋ํด ์ ๋ ฅ์ ๋ํ ์ค๋ช ๊ณผ ๊ทธ์ ๋์ํ๋ ์ถ๋ ฅ์ ๋ฌธ์ฅ์ผ๋ก ํด์ ๋ฐ๊ฒ ๋๋ค. ํ์ง๋ง, ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ๋ ์ํ๋์ง ์๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ง๊ด์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ์ง๋ง, ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๋ค์์ ๋ ๊ฐ์ง ๊ฒฐ์ ์ ์ธ ๊ฒฐ์ ์ ๊ฐ์ง๊ณ ์๋ค.
- ์ด๋ฌํ ๋ฐฉ์์ ์ ์๋ํ๊ธฐ ์ํด์ ๊ฑฐ๋ํ LM์ ์๊ตฌํ๋๋ฐ, ์ด๋ ํ์ค ์ธ๊ณ์์ ์ค์ฉ์ ์ด์ง ์๊ณ , ์์ฒญ๋ ํ์๋ฐ์๊ตญ์ ๋จ๊ธฐ๊ฒ ๋๋ค.
- ๋๋ถ๋ถ์ LM์ context window๋ ๋ช๋ฐฑ ๊ฐ์ ํ ํฐ์ผ๋ก ์ ํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฏ๋ก ๋ช ๊ฐ์ง์ ์ ์ด์์ผ๋ก ํ์ฅ๋์ง ์๋๋ค.
์ด๋ฌํ priming์ ๋์์ด ๋๋ ๊ฒ์ด pattern-exploiting training ์ฆ, PET์ด๋ค. PET์ ๊ธฐ์กด์ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ fine-tuning์ cloze question์ ์ ์ฉํ ๋ฐฉ์์ผ๋ก, unlabeled data๋ฅผ ๋ ์๊ตฌํ๊ธฐ๋ ํ์ง๋ง, labeled data์ ๋นํด์ unlabeled data๋ ๋ ๊ตฌํ๊ธฐ ์ฝ๊ธฐ ๋๋ฌธ์, ์ค์ ์ธ๊ณ์ ๋ ์ ์ฉํ๊ธฐ ๋ซ๋ค. ๊ฒฐ์ ์ ์ผ๋ก, PET์ LM์ ์ํด ์ค์ง ํ๋์ ํ ํฐ์ผ๋ก ์์ธก๋ ๋๋ง ์๋์ด ๊ฐ๋ฅํ๋ฐ, ์ด๋ ๋ง์ task๋ค์ ๋ํด ์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํํ๋๋ฐ ์ฌ๊ฐํ ์ ์ฝ์ ์ฃผ๊ฒ ๋๋ค.
๋ ผ๋ฌธ์์๋ PET์ ๋ง์ ์์ token์ ์์ธกํ๋ task์ ๋ํด ์ ์ฉํด๋ณด์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ALBERT์ ํฉํด์ ์ฌ์ฉํ ๊ฒฐ๊ณผ, PET๊ณผ iPET์ GPT-3๋ณด๋ค ํจ์ฌ ๋ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํด์ ๋์ฑ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ ผ๋ฌธ์์๋, unlabeled data ์์ด๋ ์ด์ ๋น์ทํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๋ ์ ๊ณผ PET์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ด๋๋ฐ ๊ธฐ์ฌํ ์์ธ์ ๋ํ ์์ธํ ๋ถ์์ ์ ๊ณตํ์๋ค. ์ด๋ ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ณด๋ฉด ๋์ฑ ํ์ฐํ๊ฒ ๋ณด์ผ ๊ฒ์ด๋ค.
2. Pattern-Exploiting Training
$M$์ masked language model$($MLM$)$์ด๊ณ , $T$๋ vocabulary์ด๊ณ , $_ \in T$์ mask token์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ token sequence๋ $T^{*}$์ด๋ค. $\textbf{Z} \in T^{*}$์ ์ต์ $k$๊ฐ์ mask์ $t \in T$์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๋ ผ๋ฌธ์์๋ $q_{M}^{k}(t|\textbf{z})$์ $M$์ด $\textbf{z}$์ $k$๋ฒ์งธ ๋ง์คํน๋ ์์น์์ $t$์ ํ ๋นํ ํ๋ฅ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ softmax layer์ ์ง๋๊ธฐ ์ logit์ ๊ฐ์ $s_{M}^{k}(t|\textbf{z})$์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ PET์ด ์๊ตฌ๋ก ํ๋ ์ ๋ ฅ $x \in X$๋ฅผ ์ถ๋ ฅ $y \in Y$๋ก ๋งคํํ๋ pattern-verbalizer pairs $($PVPs$)$๋ฅผ ๊ณ ๋ คํ์๋ค. ๊ฐ๊ฐ์ PVP $\textbf{p}=(P,v)$๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋๋ค.
- pattern $P$ : $X \to T^{*}$๋ ์ ๋ ฅ์ ํ๋์ mask๋ฅผ ํฌํจํ๋ cloze question์ผ๋ก ๋ณํ
- verbalizer $v$ : $Y \to T$๋ ๊ฐ๊ฐ์ ์ถ๋ ฅ์ ํจํด์์์ task-specificํ ์๋ฏธ๋ฅผ ํํํ๋ ํ๋์ ํ ํฐ์ผ๋ก ๋งคํํจ.
๋ค์์ ๊ทธ๋ฆผ 2์ ํํ๋์ด ์๋ฏ์ด, PET์ ํต์ฌ ์์ด๋์ด๋ $v(y)$๊ฐ $P(x)$์ ๋ง์คํน๋ ์์น์์ "์ฌ๋ฐ๋ฅธ" ํ ํฐ์ผ ํ๋ฅ ๋ก๋ถํฐ $y$๊ฐ $x$์ ๋ํ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ผ ํ๋ฅ ์ ๋์ถํ๋ ๊ฒ์ ๋๋ค. ์ด ๊ทธ๋ฆผ์ ์์ธํ ์ดํด๋ณด๋ฉด, ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ฌป๋ task๋ก, $x_2$: '์ ๊ฐ๊ฐ ์์นํ๋ค'์ $x_1$: '์ ๊ฐ๊ฐ ํ๋ฝํ๋ค' ๋ผ๋ ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๊ตฌํ๋ task์ด๋ค. ๋ ๋ฌธ์ฅ ์ฌ์ด์๋ ๊ด๊ณ๊ฐ ์์ผ๋ฏ๋ก $y$: 'not entailment'๊ฐ ์ ๋ต์ด๋ค. ์ด ๋ฌธ์ ๋ฅผ cloze question $P(x)$๋ก ๋ณํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. $P(x)$: ์ ๊ฐ๊ฐ ์์นํ๋ค? __, ์ ๊ฐ๊ฐ ํ๋ฝํ๋ค. ์ด๋ ๊ฒ ์ ๋ ฅ์ ํ๋์ mask๋ฅผ ํฌํจํ๋ cloze question์ผ๋ก ๋งคํํ๋ ๊ฒ์ $P$, pattern์ด๋ผ ํ๋ค. ์ด์ ๋น์นธ์ ๋ค์ด๊ฐ ์ ๋ต์ 'not entailment'์ธ๋ฐ, ๋น์นธ์ ํ๋์ด๋ฏ๋ก, ์ด ์ ๋ต์ ํ๋์ ํ ํฐ์ผ๋ก ๋ณํ์์ผ์ค์ผ ํ๋ค. ์ด ์ญํ ์ ํ๋ ๊ฒ์ด $v$, verbalizer์ด๋ค.
์ด๋ฐ ๊ฐ๋ ์ ๊ธฐ๋ฐ์ ๋์ด, $x$๊ฐ ์ฃผ์ด์ก์ ๋, $y$์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ $q_{\textbf{p}}$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
์ฌ๊ธฐ์ $s_{\textbf{p}}(y|x)=s_{M}^{1}(v(y)|P(x))$์ $P(x)$์ masked position์์์ $v(y)$์ raw score์ด๋ค.
task๊ฐ ์ฃผ์ด์ก์ ๋, ํฐ development set์ด ์๋ค๋ฉด PVP๋ฅผ ํ์ ํ๋ ๊ฒ์ ์ ์ํํ๋ ๊ฒ์ ์ด๋ ต๋ค. ๊ทธ๋์, PET์ ๋ค์ค์ PVPs $\textbf{P}={\textbf{p}_1,...,\textbf{P}_n}$์ ์กฐํฉ์ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- ๊ฐ๊ฐ์ PVP $\textbf{p}$์ ๋ํด, MLM์ $y$์ $q_{\textbf{p}}(y|x)$ ๊ฐ์ cross entropy๋ฅผ ์ต์ํํจ์ผ๋ก์จ ํ๋ จ ์์ $(x,y)$์์ fine-tuningํ๋ค.
- fine-tuning๋ MLM์ ensemble์ unlabeled example์ ๋ํด ๋ผ๋ฒจ๋ง์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ๊ฐ๊ฐ์ unlabeled example $x \in X$๋ ํ๋ฅ ๋ถํฌ์ ๋ฐ๋ผ์ soft label๋ก ๋ผ๋ฒจ๋ง์ด ๋๋ค. ๋ค์์ ์์ 2๊ฐ ์ด์ ๋ํ ์์์ด๋ค. ์์ ์์ 1๊ณผ ์ ์ฌํ๊ฒ, $w_{\textbf{p}}$๋ ํ๋ จ ์ ์ ํ๋ จ ์ธํธ์์ $\textbf{p}$๋ก ๋ฌ์ฑํ ์ ํ๋์ ๋น๋กํ๋ ๊ฐ์ค์น ๊ฐ์ด๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์จ soft-labeled dataset์ ๊ธฐ์กด์ ์ํ์ค ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ตํ๋๋ฐ ์ฌ์ฉ๋๋๋ฐ, ๋ถ๋ฅ๊ธฐ์ ์ถ๋ ฅ๊ณผ $q_{\textbf{p}}$ ๊ฐ์ cross entropy๋ฅผ ์ต์ํ์ํด์ผ๋ก์จ ํ์ตํ๋ค.
์์ 2๋ฒ๊ณผ 3๋ฒ ๋จ๊ณ๋ knowledge distilation$($์ฐธ๊ณ ๋ฌธํ$)$๊ณผ ๋งค์ฐ ์ ์ฌํ๋ค. ์ค์ํ ๊ฒ์, ์ด ๊ณผ์ ์ด ๋ชจ๋ MLM์ ensemble์ ๋์๊ฐ๋์ ๋ฉ๋ชจ๋ฆฌ์ ๋จธ๋ฌด๋ฅด๊ฒ ํ ํ์์์ด ์์ฐจ์ ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์, ํ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ ์ฌ์ฉํ์ง ์๋๋ค.
MLM์๊ฒ ์๋ก ๋ค๋ฅธ ํจํด์์ ํ์ตํ ๊ธฐํ๋ฅผ ์ฃผ๊ธฐ ์ํด, iPET์ ์ ์ํ์๋ค. ์ด iPET์ ์ฌ๋ฌ ์ธ๋์ ๋ชจ๋ธ์ด ์ด์ ์ธ๋์์ ๋ ์ด๋ธ์ด ์ง์ ๋ ์ฆ๊ฐํ๋ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์ ์ ๋ํด ํ๋ จ๋๋ PET์ ๋ฐ๋ณต ๋ณํ์ด๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํ๋๋ค: ์ฒซ ๋ฒ์งธ๋ก, MLM์ ensemble์ ๊ธฐ์กด์ PET์์ ํ๋ จ๋๋ค. ๊ฐ๊ฐ์ ๋ชจ๋ธ $M_i$์ ๋ํด ๋ค๋ฅธ ๋ชจ๋ธ์ ๋๋ค ์๋ธ์ ์ ์ฌ์ฉํด์ ์๋ก์ด ํ๋ จ ์ $T_i$๋ฅผ ์์ฑํ๋ค. ๊ฐ๊ฐ์ $M_i$๋ $T_i$์์ ์ ์ง๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณต๋๋ฉฐ ๋งค๋ฒ $T_i$์ ์์ ์๊ฐ ์ผ์ ํ ๋น์จ๋ก ์ฆ๊ฐํ๋ค.
2-1. PET with Multiple Masks
PET์ ์ค์ํ ์ ์ฝ์ verbalizer $v$๊ฐ ์ค์ง ํ๋์ token์ผ๋ก ๋งคํ๋์ด์ผ ํ๋ค๋ ๊ฒ์ธ๋ฐ, ์ด๋ ๋ค์ํ task์ ๋ํด์ ๋ถ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ verbalizer์ $v : Y \to T^{*}$์ผ๋ก ์ผ๋ฐํ์์ผฐ๋ค. ์ด๊ฒ์ ์ถ๋ก ๊ณผ ํ๋ จ์ ๋ํด์ ์กฐ๊ธ์ ์์ ์ ์๊ตฌํ๋ค. ๋ ผ๋ฌธ์์๋ ์ถ๋ ฅ ๊ณต๊ฐ์ด ๊ฐ ์ ๋ ฅ์ ๋ํด ๋์ผํ๋ค๊ณ ๊ฐ์ ํ์ง ์๋๋ค๋ ์ ์์ PET์ ๋ ์ผ๋ฐํํ๋ค: ๊ฐ $x \in X$์ ๋ํด, ์ ๋ ฅ์ผ๋ก $x$๊ฐ ์์ ๋ ๊ฐ๋ฅํ ์ถ๋ ฅ ์ $Y_{x} \subseteq Y$๋ฅผ ๋ช ์ํ์๋ค. PVP $\textbf{P}=(P,v)$๊ฐ ์ฃผ์ด์ง๋ฉด, ์ด๋ ํ ๊ธธ์ด์ ์ถ๋ ฅ $Y_x$๋ฅผ ํํํ ์ ์๋ ์ต๋ ๊ธธ์ด์ ํ ํฐ ์ $l(x)=max_{y \in Y_{x}}|v(y)|$๋ฅผ ์ ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ $P^{k}(x)$๋ mask token์ด $k$๊ฐ์ ๋ง์คํฌ๋ก ๋์ฒด๋ $P(x)$๊ฐ ๋๋ค.
์ค์ ์์๋ฅผ ๋ค์ด๋ณด๋ฉด, ์์์ ๋ฆฌ๋ทฐ์ ๋ํ ์ด๋ถ์ ๊ตฌ๋ฌธ ๋ถ๋ฅ๋ฅผ ๋ผ๋ฒจ $Y={+1,-1}$๋ก ํ๋ค๊ณ ์น์. pattern $P(x)=x.$It was __. ๊ณผ 'great'์ ๋ํด์๋ +1๋ก, 'terri $\cdot$ble'์ ๋ํด์๋ -1๋ก ๋งคํํ๋ verbalizer $v$๋ฅผ ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ์ MLM์ tokenizer์ 'terrible'์ด๋ผ๋ ๋จ์ด๋ฅผ 'terri'์ 'ble' ์ด๋ ๊ฒ ๋ ๊ฐ์ ํ ํฐ์ผ๋ก ๋๋๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ $x$์ ๋ํด $l(x)=2$๋ก ๋๊ณ , ์ด์ ๋ํ $P^{2}(x)$๋ ๋ค์์ ๊ทธ๋ฆผ 3์ $($a$)$์ ๋ฌ์ฌ๋์ด ์๋ค.
Inference
$x \in X, y \in Y_{x}$์ $|v(y)|=k$์ ๋ํด, ๋ ผ๋ฌธ์์๋ $q_{\textbf{p}}(y|x)$๋ฅผ autoregressiveํ ๋ฐฉ์์ผ๋ก ์ฌ์ ์ํ์๋ค. $P^{k}(x)$์์๋ถํฐ ์์ํด์, $k$๊ฐ์ ์ฐ์์ ์ธ ์์ธก์ ์ํํ๊ณ , ์ฌ๊ธฐ์ ํญ์ MLM์ confidence์ ๊ธฐ๋ฐ์ ๋๊ณ ๋ค์์ผ๋ก ์์ธกํด์ผ ํ token์ ์ ํํ์๋ค. ์ด๋ฅผ $q_{\textbf{p}}(y|x)=q(v(y)|P^{k}(x))$์ผ๋ก ์ค์ ํด๋๊ณ ์ฌ๊ธฐ์ ์ด ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๊ฒฐ์ ๋๋ค.
$j=arg max_{i=1}^{k}q_{M}^{i}(t_i|\textbf{z})$์ด๊ณ , $\textbf{z}^{'}$๋ $\textbf{z}_{j}^{'}=t_j$์ $t^{'}=t_1 ... t_{j-1}t_{j+1} ... t_k$๋ฅผ ์ ์ธํ $\textbf{z}$์ด๋ค. ๊ธฐ์กด์ PET์๋ ๋ฌ๋ฆฌ $q_{\textbf{p}}$๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด ์๋๋ผ์ ๋ชจ๋ ํฉ์ณ๋ 1์ด ๋์ง ์์ ์๋ ์๋ค.
๊ตฌ๋ฌธ ๋ถ๋ฅ ์์ ์ ๋ํด์, ๊ทธ๋ฆผ 3์ ์ด๋ป๊ฒ $q_{\textbf{p}}(-1|x)$๊ฐ ๊ณ์ฐ๋๋์ง ๋ณด์ฌ์ฃผ๊ณ ์๋ค. $|v(y)|=|{terri, \cdot ble}|=2$์ด๋ฏ๋ก, ์ฒ์์ $\textbf{z}=P^{2}(x)$๋ฅผ ์ฌ์ฉํด์ $v(y)$์ ๊ฐ๊ฐ์ ํ ํฐ์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํ๋ค $($๊ทธ๋ฆผ 3์ a$)$. ๊ทธ ํ์ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ํ ํฐ์ ์ ํํด์, ๊ทธ์ ๋์ํ๋ ์์น์ mask token์ ๋ฃ์ด์ฃผ๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์จ cloze question $\textbf{z}^{'}$์ ์ฌ์ฉํด์ ๋จ์ ํ ํฐ๋ค์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํ๋ค $($๊ทธ๋ฆผ 3์ b$)$. $y=-1$์ ๋ํ ์ ๋ฐ์ ์ธ ์ ์๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
$q_{\textbf{p}}(-1|x)=q_{M}^{2}(\bullet ble|\textbf{z}) \cdot q_{M}^{1}(terri|\textbf{z}^{'})$
Training
์์ 3์ฒ๋ผ ๊ฐ๊ฐ์ ํ๋ จ ์์ $(x,y)$์ ๋ํด $q_{\textbf{p}}(y|x)$๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ ์์ฒญ ๋ง์ ๊ณ์ฐ๋์ ์๊ตฌํ๋ค. ๋ชจ๋ ํ๋ฅ ๋ค์ ๋ํด ํ๋์ forward pass๋ก ๊ณ์ฐํ๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด์๋, $q_{\textbf{p}}(y|x)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ทผ์ฌํด์ผ ํ๋ค.
- ํญ์ ์ด๋ ํ ์ถ๋ ฅ์ด๋ ํํํ ์ ์๋ ์ต๋ ๊ฐ์์ mask token์ ์ฃผ์ ํด์ผ ํจ.
- ๊ฐ๊ฐ์ $y^{'} \in Y_{x}$์ ๋ํด, $v(y^{'})=t_1 ... t_k$์ ์๋ ๋ชจ๋ ํ ํฐ์ ๋ณ๋ ฌ๋ก ์์ธกํด์ผ ํ๊ณ , ์ฌ๊ธฐ์ ๋ชจ๋ $l(x)-k$๊ฐ์ ๋ถํ์ํ ๋ง์คํฌ ํ ํฐ์ ๋ํ ์์ธก์ ๋ฌด์ํด์ผ ํจ.
์์ ๋ค์๋ ์ค์ ์์์ ์ ์ฉํด ๋ณด๋ฉด, ์ด๊ฒ์ ์ ์ $q_{\textbf{p}}(y|x)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ทผ์ฌํ๋ค.
์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํํ๋ฉด, ๊ทธ๋ฆผ 3์ $($a$)$์์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ฒ๋ผ ์ค์ง cloze question $\textbf{z}=P^{2}(x)$๋ฅผ ํ ๋ฒ ์ํํ๋ ๊ฒ์ ์๊ตฌํจ์ผ๋ก์จ ํ๋์ forward pass๋ก ๋๋๊ฒ ๋๋ค.
$\tilde{q}_{\textbf{p}}$์ด $Y_x$์ ๋ํ ํ๋ฅ ๋ถํฌ๊ฐ ์๋๋ฏ๋ก, ๊ต์ฐจ ์ํธ๋กํผ๋ ๋ชจ๋ธ์ ์์ธก์ ์ํฅ์ ๋ฏธ์น์ง ์์์๋ ๋ถ๊ตฌํ๊ณ ์ถ๋ ฅ ๊ณต๊ฐ์ ์ผ๋ถ๊ฐ ์๋ ์ํ์ค $\textbf{z} \notin v(Y_x)$์ ํ ๋น๋ ํ๋ฅ ์ ์ค์์ผ๋ก์จ ์ต์ํํ ์ ์์ผ๋ฏ๋ก ์ด์์ ์ธ ํ๋ จ ๋ชฉํ๊ฐ ์๋๋ค. ๋ ผ๋ฌธ์์๋ ๋์ ์ ๋ค์ค ํด๋์ค hinge loss๋ฅผ ์ ํํ๊ณ ์ต์ํํ์๋ค.
์ฆ, $y$์ log probability์ ์ถ๋ ฅ $y^{'} \in Y_x \setminus {y}$์ log probability ์ฌ์ด์ ์ฐจ์ด๊ฐ ์ ์ด๋ 1์ด์ด์ผ ํ๋ค.
๋ณธ ํฌ์คํธ์์๋ ์คํ์ ๊ดํ ๋ถ๋ถ์ ๋ค๋ฃจ์ง ์์ผ๋ฏ๋ก ์์ธํ ๋ค๋ฃจ์ง๋ ์๊ฒ ์ผ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ค์์ ํ 1๊ณผ ๊ฐ๋ค.
3. Analysis
๋ ผ๋ฌธ์์๋ few-shot performance์ ๋ํด์ ๋ค์ํ factor๋ค์ ์ค์์ฑ์ ์กฐ์ฌํ์๋ค.
- pattern๊ณผ verbalizer ์ ํ
- unlabeled data์ labeled data ์ฌ์ฉ
- ์ฌ์ฉ๋๋ language model์ ํน์ฑ
๊ทธ๋ฆฌ๊ณ multiple mask๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ ์๋ ์์ ๋ PET์ ๋ํด ์์ธํ๊ฒ ์ดํด๋ณด๊ณ , ๋ค๋ฅธ baseline๋ค๊ณผ ์ด๋ ํ ์ฐจ์ด๊ฐ ์๋์ง ๋น๊ตํ์๋ค. ๋ง์ง๋ง์ผ๋ก๋, ์๋ก ๋ค๋ฅธ training example์ ์ ํํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ์ธก์ ํ์๋ค.
3-1. Patterns
task๋ฅผ cloze question์ผ๋ก ๋ณํํ๋ ๊ฒ์ ์ฑ๋ฅ์ ์ปค๋ค๋ ์ํฅ์ ๋ฏธ์น๋ค. ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด ์ธ ๊ฐ์ PVP๋ฅผ ๋น๊ตํ์๋ค: ๋ ผ๋ฌธ์์ ์ ์ํ $\textbf{p}_{ours}$, GPT-3์ ์ ์ฉํ single PVP $\textbf{p}_{GPT-3}$, ๊ทธ๋ฆฌ๊ณ ๋์ ํฉ์น $\textbf{p}_{comb}$. ๊ทธ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 1์ ๋ํ๋ ์๋ค.
์ฑ๋ฅ์์ ๋ณด์ฌ์ฃผ๋ ์ด๋ฌํ ์์ฒญ๋ ์ฐจ์ด๋ task๋ฅผ ์ผ๋ง๋ ์ข์ ๋ฐฉ์์ผ๋ก cloze question์ผ๋ก ๋ํ๋ด๋๊ฐ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ํ ์ ํฉํ pattern์ ์ ์ ์ ์คํ๊ฒ ์กฐ์ ํ๋ ๊ฒ์ ์ค์์ฑ ๋ํ ๊ฐ์กฐํ๋ค.
3-2. Unlabeled Data Usage
GPT-3์๋ ๋ฌ๋ฆฌ PET์ iPET์ ์ํด unlabeled data๋ฅผ ํ์๋ก ํ๋ค. unlabeled data๋ฅผ ์ด์ฉํด์ ๋ค์ generation์ ์ํ training set์ ์์ฑํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ PET์ ๋ํด unlabeled data์ ์ค์์ฑ์ ์กฐ์ฌํ์๋ค. ์ด๋ฅผ ์ํด, PET์์ ์ต์ข ๋ถ๋ฅ๊ธฐ์ ์ฑ๋ฅ์ ๊ฐ๋ณ PVP์ ํด๋นํ๋ ๋ชจ๋ธ์ ์์๋ธ์ ์ง์ ์ฌ์ฉํ๋ ์ฑ๋ฅ๊ณผ ๋น๊ตํ์๋ค. ์ด ensemble์ ํ ๋ฒ์ ์ฌ์ฉํ๋ ๊ฒ์ unlabeled data์ ๋ํ ํ์๋ฅผ ์์ ์ฃผ์ง๋ง, ์ด ensemble์ distilled model๋ณด๋ค ๋ ํฌ๊ธฐ ๋๋ฌธ์, PET์ ๊ธฐ๋ณธ ์ธํ ์ ๋ฐ๋ผ์ ๊ฐ PVP์ ๋ํด์ ์ธ ๊ฐ์ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. distillation์ ์ ์ธํ ๊ฒฐ๊ณผ๋ ํ 2์ ์๋์ชฝ์ ๋ํ๋์๋ค. ์ธ ๊ฐ์ task์ ๋ํ ํ๊ท ์ ensemble์ด distilled classifier๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๋ฐ๋ผ์ ๋ชฉํ๊ฐ ์ค์ง ์ข์ ์ฑ๋ฅ์ ๊ฐ๊ธฐ ์ํด์๋ผ๋ฉด unlabeled data๋ ๋ถํ์ํ๋ค. ํ์ง๋ง, ์ด๋ฌํ ๋ฐฉ์์ final classifier๋ก ๊ฐ๋ฒผ์ด ๋ชจ๋ธ์ ํ์๋ก ํ๋ค. ๋ค์์ ๊ทธ๋ฆผ 4๋ iPET์ ์ฌ์ฉํด์ multiple generation์ ํ์ต์ํค๋ ๊ฒ์ ์ด์ต์ ๋ณด์ฌ์ค๋ค.
3-3. Labeled Data Usage
๋ค์์ผ๋ก, ์ด๋ป๊ฒ labeled data๊ฐ ์ฌ์ฉ๋๋์ง์ ๋ํ ํจ๊ณผ์ ๋ํด ๋ถ์ํ์๋ค. ์ด labeled data๋ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๊ณผ PET ๊ฐ์ ์ฐจ์ด์ ์ด๋ค. ์ฒซ ๋ฒ์งธ๋ก, PET with supervised learning๊ณผ PET with fully unsupervised learning๊ณผ ๋น๊ตํ์๋ค. 32๊ฐ์ ์์ ๊ฐ ์ฃผ์ด์ง๊ณ , PET์ ๋ชจ๋ baseline์ ๋ฅ๊ฐํ์๋ค. ๋ค์์ ํ 3์ ๋ณด๋ผ.
๋ค์์ผ๋ก, PET์ priming๊ณผ ์ง์ ์ ์ผ๋ก ๋น๊ตํ๋ ค ํ์ผ๋ ๋ถ๊ฐ๋ฅํ์๋ค. ์๋ํ๋ฉด, ALBERT๋ ์ต๋ 512๊ฐ์ token๊น์ง๋ง ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ฐ, ์ด ์ ์ ์์ ํ ํฐ์ผ๋ก๋ 32๊ฐ์ ์์ ๋ฅผ ๋ชจ๋ ํํํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด XLNet์ ์ฌ์ฉํ์๋ค. ์์ ํ๋ฅผ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด XLNet์ ๊ธฐ์กด์ ALBERT๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง์ง๋ง, XLNet with PET์ priming๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
์ถ๊ฐ์ ์ผ๋ก, priming์ ํจ๊ณผ๋ฅผ ํ์ธํ๊ธฐ ์ํด GPT-3์ ๊ฒฐ๊ณผ๋ฅผ ์ข ๋ ์์ธํ ์ดํด๋ณด์๋ค. ์ด๋ฅผ ์ํด, ๋ค์์ ๊ทธ๋ฆผ 5๋ GPT-3 with 32 examples์ GPT-3 with single example์ ๋ํด์ ์์ธํ๊ฒ ์ดํด๋ณด์๋ค. ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด 32 examples๋ ๋งค์ฐ ๊ฒฝ๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ค task์ ๋ํด์๋, ์์ ํฌ๊ธฐ์ ๋ชจ๋ธ์ example์ ๋ ํฌ์ ํ๋ ๊ฒ์ด ์คํ๋ ค ์ฑ๋ฅ์ ๋จ์ด๋จ๋ฆด ์๋ ์๋ค.
๊ทธ๋ฆผ 5์ ์๋์ชฝ ํ์ PET์ ์ฌ์ฉํด์ ํ๋ จ๋ ALBERT์ ๋ชจ๋ task์ ๋ํด fully unsupervised๋ ALBERT์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง, ์ฌ์ฉ๋ model๊ณผ PVP์ ์ฐจ์ด ๋๋ฌธ์ ๊ฒฐ๊ณผ๋ ์ง์ ์ ์ผ๋ก ๋น๊ต๊ฐ ๋ถ๊ฐํ์ง๋ง, PET์ priming์ ๋นํด ๋์ฑ ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๊ณ , ์ด๋ ํ task์ ๋ํด์๋ ์ฑ๋ฅ์ด ์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ ์์๋ค.
3-4. Model Type
๋ค์์ผ๋ก ์ฌ์ฉ๋๋ LM์ ์ฐจ์ด๊ฐ PET์ ๋ฏธ์น๋ ์ํฅ์ ํ์ ํ๊ธฐ ์ํด, ALBERT, RoBERTa, GPT-2 medium์ ๋น๊ตํ์๋ค. ์ด ์ธ ๊ฐ์ ๋ชจ๋ธ์ PET๊ณผ ํจ๊ป ํ๋ จํ ๊ฒฐ๊ณผ, ๋ค์์ ํ4์ ๋ฐ๋ฅด๋ฉด PET์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ํด ALBERT๋ ๊ฒฐ์ ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์๋ ํ๋ฅผ ๋ณด๋ฉด GPT-2๋ ์ธ ๊ฐ์ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ์ข์ง ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๋ฌํ ์ฑ๋ฅ ํ๋ฝ์ GPT-3์ GPT-2๊ฐ unidirectionalํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ์ ์ด ๋ ๊ฐ์ sequence๋ฅผ ๋น๊ตํ๋ task๋ฅผ ์ด๋ ต๊ฒ ๋ง๋ ๋ค. ํ์ง๋ง, GPT-2์ ๋ค๋ฅธ ๋ ๋ชจ๋ธ ๊ฐ์ ๋ถ์์ ์ธ ์ฐจ์ด์ ์ธ ์ฌ์ ํ์ต๋ ๋ฐ์ดํฐ์ ์ ์ฐจ์ด ๋ํ ์ง๊ณ ๋์ด๊ฐ์ผ ํ๋ค. unidirectional์ด GPT-2 ์ฑ๋ฅ ์ ํ์ ์์ธ์ธ์ง ์ฌ๋ถ์ ๊ด๊ณ์์ด ๊ธฐ๋ณธ LM์ bidirectional์ PET์ ์ค์ํ๋ค. ๋ง์คํฌ ํ ํฐ์ด ๋งจ ๋์ ์์ด์ผ ํ ํ์์ฑ์ ์์ ๊ณ ํจํด ์์ฑ์ ๋ ๋ง์ ์ ์ฐ์ฑ์ ํ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค.
3-5. PET with Multiple Masks
๋ ผ๋ฌธ์์๋ ์ถ๋ ฅ์ผ๋ก single token๋ณด๋ค ๋ง์ token์ ์๊ตฌํ๋ task๋ฅผ ์ํํ ์ ์๋๋ก PET์ ์์ ํ์๋ค. ์ด๋ฌํ ์์ ์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด, ์ด๋ฌํ ์กฐ๊ฑด์ ์๊ตฌํ๋ ์ธ ๊ฐ์ task์ ๋ํด ์กฐ์ฌํด๋ณด์๋ค: COPA, WSC, ReCoRD. ๋ ผ๋ฌธ์์๋ ํ ๋น๋ ํ๋ฅ ์ ์์๋๋ก ํ ํฐ์ ์์ธกํ๋ ๋์ฝ๋ฉ ์ ๋ต์ธ max-first๋ฅผ ๋ ๊ฐ์ง ๋์๊ณผ ๋น๊ตํ๋ค: left-to-right decoding์ ๋ง์ autoregressive model์ ๋ํด ์ผ๋ฐ์ ์ด๊ณ , ๋ชจ๋ ํ ํฐ์ ๋์์ ๋์ฝ๋ฉํ๋ parallel์ ํ๋ จ ์ค์ ๋๋๊ฒ ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก, training loss๋ฅผ ์ธก์ ํ๊ธฐ ์ํด, PET with untrained ALBERT์ ๋น๊ตํ์๋ค.
์ด์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 5์ ๋ํ๋ ์๋ค. PET์ ์ธ ๊ฐ์ task์ ๋ํด untrained ALBERT์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ์๋ค. distillation์ ์ํํ์ง ์๋ ๊ฒ์ COPA์ ๋ํด ์ฑ๋ฅ์ ํด๋ฅผ ๋ผ์ณค์ง๋ง, WSC์ ReCoRD์ ๋ํด์ ์ฝ๊ฐ์ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋๋ค. ๋ ผ๋ฌธ์์ ์ ์๋ decoding ์ ๋ต์ ์ ๋ฐ์ ์ผ๋ก parallel decoding๋ณด๋ค ์ฐ์ํ๋ค.
์ฐธ๊ณ ๋ฌธํ
https://littlefoxdiary.tistory.com/62
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Small Language Models Are Also Few-Shot Learners
GPT-3๋ in-context learning ๋ฐฉ์์ผ๋ก Few-shot ์ธํ ์์ NLU ํ์คํฌ๋ฅผ ์ ์ํํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ฌํ ์ฑ๊ณผ๋ 1750์ต ๊ฐ์ ๋ฌํ๋ ์์ฒญ๋ ์์ ํ๋ผ๋ฏธํฐ๋ก ์๋ง์ ํ ์คํธ์ ๋ํด ์งํํ ์ฌ
littlefoxdiary.tistory.com
https://arxiv.org/abs/2009.07118
It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
When scaled to hundreds of billions of parameters, pretrained language models such as GPT-3 (Brown et al., 2020) achieve remarkable few-shot performance. However, enormous amounts of compute are required for training and applying such big models, resulting
arxiv.org