Pre-trained Language Modeling paper reading
์์ฆ NLP ๋ถ์ผ์์ ๋จ๊ฑฐ์ด ๊ฐ์์ธ pre-trained Language Modeling์ ๊ดํ ์ ๋ช ํ ๋ ผ๋ฌธ๋ค์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ์๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ ๋ฒ ํฌ์คํธ์ธ GPT-1์ ํ์ ๋ชจ๋ธ์ธ GPT-2์ ๋ํด์ ๋ฆฌ๋ทฐํ์๋ค.
- ELMo: 'Deep contextualized word representations' reading & review
- BERT: 'Pre-training of Deep Bidirectional Transformers for Language Understanding' reading & review
- GPT-1: 'Improving Language Understanding by Generative Pre-Training' reading & review
The overview of this paper
QA์ machine translation, reading comprehension, ์์ฝ๊ณผ ๊ฐ์ NLP task๋ ๋ณดํต task-specificํ ๋ฐ์ดํฐ์ ์ ๋ํ supervised learning์ผ๋ก ์ ๊ทผ๋๋ค. ๋ ผ๋ฌธ์์๋ language model์ด Webtext๋ผ๊ณ ๋ถ๋ฆฌ๋ ์๋ฐฑ๋ง ๊ฐ์ ์น ํ์ด์ง๋ก ๊ตฌ์ฑ๋ ์๋ก์ด ๋ฐ์ดํฐ ์ธํธ์์ ๊ต์ก์ ๋ฐ์ ๋ supervision ์์ด ์ด๋ฌํ ์์ ์ ํ์ตํ๊ธฐ ์์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ฌธ์์ ์ง๋ฌธ์ ์กฐ๊ฑด์ผ๋ก ํ๋ ๊ฒฝ์ฐ์, language model๋ก๋ถํฐ ์์ฑ๋๋ ๋๋ต์ CoQA ๋ฐ์ดํฐ ์ธํธ์ ๋ํด 55์ F1 score๋ฅผ ๊ฐ๋๋ฐ, ์ด๋, ์ฝ 127,000๊ฐ ์ด์์ ํ๋ จ ์์๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , 4๊ฐ์ baseline system์์ 3๊ฐ ์ ๋์ ์ฑ๋ฅ์ ์๋๊ฑฐ๋ ๋ฅ๊ฐํ๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. language model์ ์ฉ๋์ zero-shot task transfer๊ฐ ์ฑ๊ณตํ๊ฒ ํ๋ ๊ฒ๊ณผ ์ด ์ฉ๋์ ๋๋ ธ์ ๋, ์์ ์ ๋ฐ์ ๊ฑธ์ณ ๋ก๊ทธ ์ ํ ๋ฐฉ์์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํจ๋ค. GPT-2๋ zero-shot setting์์ ํ ์คํธ๋ 8๊ฐ ์ธ์ด ๋ชจ๋ธ๋ง ๋ฐ์ดํฐ ์ธํธ ์ค 7๊ฐ์์ SoTA๋ฅผ ๋ฌ์ฑํ์ง๋ง ์ฌ์ ํ WebText์ ์ ํฉํ์ง ์์ 15์ต๊ฐ์ parameter์ ๊ฐ์ง Transformer์ด๋ค. model์ sample์ ์ด๋ฌํ ๊ฐ์ ์ ์ ๋ํ๋ด๊ณ , text์ coherent paragraph์ ํฌํจํ๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ํ๋ ๋ฐ๋ชจ์์ ์์ ์ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ language processing ์์คํ ์ ๊ตฌ์ถํ๋ ์ ๋งํ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๋ค.
Table of Contents
1. Introduction
2. Approach
2-1. Training Dataset
2-2. Input Representations
3. Generalization vs Memorization
1. Introduction
machine learning ์์คํ ์ ์ด์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ, ๋ง์ ์ฉ๋์ ๋ชจ๋ธ, supervised learning์ ์กฐํฉ์ ์ฌ์ฉํ์ฌ ํ๋ จ๋ ์์ ์์ ๋ฐ์ด๋๋ค. ์์ง ์ด๋ฌํ ์์คํ ๋ค์ ๋ฐ์ดํฐ ๋ถํฌ์ task specification์ ์กฐ๊ธ์ ๋ณํ๊ฐ ์๊ธฐ๋ฉด ์ทจ์ฝํ๊ณ ๋ฏผ๊ฐํ๊ธด ํ์ง๋ง ๋ง์ด๋ค. ํ์ฌ์ ์์คํ ๋ค์ ๋ค๋ฐฉ๋ฉด์ ๋ฅ์ํ ์ฌ๋ ์ด๊ธฐ ๋ณด๋ค๋ ์ข์ ๋ถ์ผ์์ ์ ๋ฌธ๊ฐ์ด๋ค. ์ฐ๋ฆฌ๋ ๋ค์ํ task์ ๋ํด ์ํํ ์ ์๋ ์ข ๋ generalํ ์์คํ ์ด ํ์ํ๋ค. ์๋์ผ๋ก ๊ฐ ํ๋๋ง๋ค ํ๋ จ ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ณ ๋ผ๋ฒจ๋งํ ํ์๊ฐ ์์ด์ผ ํ๋ค.
์ฃผ๋ ML ์์คํ ์์ฑ ๋ฐฉ๋ฒ์ ์ ์๋ task์ ๋ํด ์ ํํ ํน์ง์ ์ค๋ช ํ๊ณ ์๋ ํ๋ จ ์์์ ๋ฐ์ดํฐ์ ์ ๋ชจ์ผ๊ณ , ์์คํ ์ ํ๋ จ์์ผ์ ์ด๋ฌํ ํน์ง์ ํ๋ด๋ด๊ฒ ํ ๋ค์์, ์ด๊ฒ์ ๋ํ ์ฑ๋ฅ์ ๋ ๋ฆฝ์ ์ด๊ณ independentํ๊ณ identicallyํ๊ฒ distributed๋$($IID$)$ ํ๋ ์์ ์์ ์์ ์ฑ๋ฅ์ ํ ์คํธํ๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ข์ ๋ถ์ผ์ ์ ๋ฌธ๊ฐ๋ฅผ ์์ฑํ ๋๋ ์ ์ฉํ๋ค. ํ์ง๋ง, captioning model, reading comprehension, image classifier์ ๋ค์ํ๊ฒ ๊ฐ๋ฅํ ์ ๋ ฅ๋ค์ ์์ฃผ ๋ถ๊ท์นํ ํน์ง์ ์ด๋ฌํ ๋ฐฉ์์ ๋จ์ ์ ๋ถ๊ฐ์ํจ๋ค.
๋ ผ๋ฌธ์์ ์์ฌํ๋ ๊ฒ์ single domain dataset์ ๋ํ single task training์ ์ ํ์ด ํ์ฌ ์์คํ ์์ ๊ด์ฐฐ๋๋ ์ผ๋ฐํ ๋ถ์กฑ์ ์ฃผ์ ์์ธ์ด๋ผ๋ ๊ฒ์ด๋ค. ํ์ฌ architecture๋ก robust system์ ์ํํ๋ ๊ฒ์ ๋ค์ํ ๋ฒ์์ ์์ญ๊ณผ task์ ๋ํด ํ๋ จ๊ณผ performance๋ฅผ ์ธก์ ํ๋ ๊ฒ์ ์๊ตฌํ๋ค. ์ต๊ทผ์, ๋ค์ํ ๋ฒค์น๋งํฌ๋ ์ด๋ฅผ ์ฐ๊ตฌํ๊ธฐ ์ํด GLUE์ decaNLP ๊ฐ์ ๊ฒ์ ์ ์ํ์๋ค.
multitask learning์ general performance๋ฅผ ํฅ์์ํฌ ํฌ๋ง์ ์ธ ๊ตฌ์กฐ์ด๋ค. ํ์ง๋ง, NLP์์ multitask training์ ์์ง ์ด๊ธฐ์ ๋จ๊ณ์ด๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์์ํ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋กํ์๊ณ , ํ์ฌ๊น์ง ๊ฐ์ฅ ์ผ์ฌ์ฐฌ ๋ ๊ฐ์ง ๋ ธ๋ ฅ์ ๊ฐ๊ฐ ์ด 10๊ฐ ๋ฐ 17๊ฐ $($dataset, objective$)$ ์์ ๋ํด ํ๋ จํ๋ค. meta-learning์ ๊ด์ ์์ ๋ณด๋ฉด, ๊ฐ $($dataset, objective$)$ ์์ dataset๊ณผ objective์ ๋ถํฌ๋ก๋ถํฐ ์ํ๋งํ ํ๋์ ํ๋ จ ์์์ด๋ค. ํ์ฌ์ ML ์์คํ ์ ์ผ๋ฐํ๋ฅผ ์ํ๋ ํจ์๋ฅผ ์ ๋ํ๊ธฐ ์ํด ์๋ฐฑ๊ฐ์์ ์์ฒ๊ฐ์ ์์๋ฅผ ์๊ตฌํ๋ค. ์ด๊ฒ์ multitask training์ด ํ์ฌ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ์ฝ์์ ์คํํ๊ธฐ ์ํด ๋ง์ ํจ๊ณผ์ ์ธ ๊ต์ก ์์ด ํ์ํจ์ ์์ฌํ๋ค. ํ์ฌ ๊ธฐ์ ๋ก ๋ฌด์ฐจ๋ณ ๋์ ์ ์ํํ๋ ๋ฐ ํ์ํ ์ ์์ ์ ๋๋ก ๋ฐ์ดํฐ์ ์์ฑ ๋ฐ ๋ชฉํ ์ค๊ณ๋ฅผ ๊ณ์ ํ์ฅํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ต๋ค. ์ด๊ฒ์ multitask learning์ ์ํํ๋ ๋ฐ์ ์ถ๊ฐ์ ์ธ setup์ ํ์ํ๋ ๋ฐ ๋๊ธฐ๋ฅผ ๋ถ์ฌํ์๋ค.
language task๋ฅผ ์ํํ๋ ๊ฐ์ฅ ์ต๊ณ ์ ์์คํ ์ pre-training๊ณผ supervised fine-tuning์ ์กฐํฉ์ ์ฌ์ฉํ๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋ณด๋ค ์ ์ฐํ ํํ์ ๋ฒ์ญ์ ์ํ ์ถ์ธ์ ํจ๊ป ์ค๋ ์ญ์ฌ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, ์๋ ๋ฒกํฐ๊ฐ ํ์ต๋์ task-specific architecture์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ ๋ค์์, recurrent network์ ๋ฌธ๋งฅ์ representation์ด ์ ๋ฌ๋๊ณ , ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ task-specific architecture๊ฐ ๋ ์ด์ ํ์์ ์ด์ง ์๊ณ ๋์ ์ ๋ง์ self-attention ๋ธ๋ก์ ์ ๋ฌํ๋ ๊ฒ์ผ๋ก ์ถฉ๋ถํ๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์์ง task๋ฅผ ์ํํ๊ธฐ ์ํด ์์ง supervised training์ ์๊ตฌํ๋ค. ์กฐ๊ธ ๋๋ ์์ supervised data๊ฐ ์์ ๋, ์์ ์ ๋๋ค๋ฅธ ๋ผ์ธ์ specific task์ ์ํํ๊ธฐ ์ํด language model์ promise๋ฅผ ์ค๋ช ํ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ ๊ฐ์ ์์ ์ ์ฐ๊ฒฐํ๊ณ ๋ฒ์ญ์ ๋์ฑ generalํ ๋ฐฉ๋ฒ์ ์ถ์ธ๋ฅผ ๊ณ์ํ๋ค. ๋ ผ๋ฌธ์์๋ language model์ด zero-shot ์ธํ ์์ ์ด๋ ํ parameter ์์ ๊ณผ ๊ตฌ์กฐ์ ๋ณํ ์์ด down-stream task๋ฅผ ์ํํ ์ ์๋ค๊ณ ์ค๋ช ํ์๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ zero-shot ์ธํ ์์ ๋ค์ํ ๋ฒ์์ task๋ฅผ ์ํํ๊ธฐ ์ํด language model์ ๋ฅ๋ ฅ์ ๊ฐ์กฐํจ์ผ๋ก์จ, ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค.
2. Approach
๋ ผ๋ฌธ์์์ ์ ๊ทผ ๋ฐฉ์์ ํต์ฌ์ language modeling์ด๋ค. language modeling์ ๋๊ฒ ๊ฐ๊ฐ ๊ฐ๋ณ ๊ธธ์ด ๊ธฐํธ ์ํ์ค $(s_{1},s_{2},...,s_{n})$๋ก ๊ตฌ์ฑ๋ ์ผ๋ จ์ ์์ $(x_{1}, x_{2},...,x_{n})$์์ unsupervised ๋ถํฌ ์ถ์ ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ์ธ์ด๋ ์์ฐ์ ์ธ sequential ์์๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์, ๋ค์๊ณผ ๊ฐ์ด ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณฑ์ผ๋ก ๊ธฐํธ์ ๋ํ ๊ฒฐํฉ ํ๋ฅ ์ ๋ถํดํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค.
์ด ์ ๊ทผ๋ฒ์ $p(s_{n-k},...,s_{n}|s_{1},...,s_{n-k-1})$ ํ์์ ๋ชจ๋ ์กฐ๊ฑด ๋ฟ๋ง ์๋๋ผ $p(x)$์ ์ถ์ ๊ฐ๋ฅํ ์ํ๋ง ๋ฐ ์ถ์ ์ ํ์ฉํ๋ค. ์ต๊ทผ์๋ ์ด๋ฌํ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐํ ์ ์๋ Transformer์ self-attention ๊ฐ์ model์ ์๋ฏธ์ฌ์ฅํจ์์ ์๋นํ ๊ฐ์ ์ ์ด ์์๋ค.
single task๋ฅผ ์ํํ๊ธฐ ์ํด ํ์ตํ๋ ๊ฒ์ ํ๋ฅ ๋ก ์ ๊ตฌ์กฐ์์ ์กฐ๊ฑด๋ถ ํ๋ฅ $p(output|input)$์ ์ธก์ ํ๋ ๊ฒ์ฒ๋ผ ํํ๋ ์ ์๋ค. general ์์คํ ์ ๋๊ฐ์ ์ ๋ ฅ์ ๋ํด์๋ ๋ค์ํ ๋ค๋ฅธ task๋ฅผ ์ํํ ์ ์์ด์ผ ํด์, ์ ๋ ฅ ๋ฟ๋ง ์๋๋ผ task์ ๋ํด์๋ ์ ์ํ๋ ๊ฒ์ด ์ํ๋์ด์ผ ํ๋ค. ๋ฐ๋ผ์ $p(output|input,task)$๋ก ๋ชจ๋ธ๋ง ๋์ด์ผ ํ๋ค. ์ด๊ฒ์ multitask์ meta-learning ์ธํ ์์ ๋ค์ํ๊ฒ ๊ณต์ํ๋์ด ์๋ค. task conditioning์ ๋ณดํต task specificํ ์ธ์ฝ๋์ ๋์ฝ๋์ ๊ฐ์ architectural level์์ ์์ฉ๋๊ฑฐ๋, MAML์ ๋ด๋ถ์ ์ธ๋ถ loop optimization ๊ตฌ์กฐ์ ๊ฐ์ algorithmic level์์ ์์ฉ๋๋ค. ํ์ง๋ง, ์ ํ์ ์ธ ์์์๋, ์ธ์ด๋ task, ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ์ ๋ชจ๋ ์ผ๋ จ์ ๊ธฐํธ๋ก ์ง์ ํ๋ ์ ์ฐํ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ค. ์๋ฅผ ๋ค์ด, ๋ฒ์ญ ํ๋ จ ์์๋ ์ํ์ค $\texttt{(translate to french, english text, french text)}$๋ก ์์ฑ๋๋ค. ์ด์ ๊ฐ์ด, reading eomprehension training ์์๋ $\texttt{(answer the question, document, question, answer)}$๋ก ์์ฑ๋๋ค. McCann์ธ ์ ์๋ค์ด ์์ฑํ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ํ์ ํ์์ ์ฌ์ฉํ์ฌ ์์์ ๋ค์ํ ์์ ์ ์ถ๋ก ํ๊ณ ์ํํ๊ธฐ ์ํด ๋จ์ผ ๋ชจ๋ธ์ธ MQAN์ ๊ต์กํ๋ ๊ฒ์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ์๋ค.
Language modeling ์์น์ ์ผ๋ก๋ ์ด๋ค ๊ธฐํธ๊ฐ ์์ธกํ ์ถ๋ ฅ์ธ์ง์ ๋ํ ๋ช ์์ ์ธ supervision์ด ํ์์๋ McCann์ธ ์ ์๋ค์ด ์์ฑํ ๋ ผ๋ฌธ์์์ task๋ฅผ ํ์ตํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค. supervised์ ๋ชฉํ๋ unsupervised์ ๋ชฉํ์ ๊ฐ์ง๋ง, ์ค์ง ์ํ์ค์ subset์์ ํ๊ฐ๋๊ธฐ ๋๋ฌธ์, unsupervised์ global ์ต์๊ฐ์ด ๋ํ supervised์ ์ต์๊ฐ์ด๋ค. ์ด๋ฌํ ์ฝ๊ฐ toy setting์์๋, Sutskever์ธ ์ ์๋ค์ด ์์ฑํ ๋ ผ๋ฌธ์์ ๋ ผ์๋ ์์น์ ์ธ ํ๋ จ ๋ชฉํ๋ก์์ ๋ฐ๋ ์ถ์ ์ ๋ํ ์ฐ๋ ค๋ ์์ผ๋ก ๋น์ผ์ ์๋ค. ๋์ ์ ๋ฌธ์ ๋ ์ค์ ๋ก ์๋ ด์ ๋ํ unsupervised ๋ชฉํ๋ฅผ ์ต์ ํํ ์ ์๋์ง ์ฌ๋ถ์ด๋ค. ์ด์ ์ ์คํ๋ค์ ์ถฉ๋ถํ ์ปค๋ค๋ language model์ ์ด๋ฌํ toy-ishํ setup์์ multitask learning์ ์ํํ ์ ์์ง๋ง, ํ์ต์ด ๋ช ์๋ supervised ์ ๊ทผ๋ฒ๋ณด๋ค ํจ์ฌ ๋๋ฆฌ๋ค๋ ๊ฒ์ ํ์ธํ์๋ค.
์์์ ์ค๋ช ํ well-posed ์ค์ ์์ "language in wild"์ ํผ๋์ ์ด๋ฅด๊ธฐ๊น์ง ํฐ ๋จ๊ณ์ด์ง๋ง, Weston์ ๋ ผ๋ฌธ์์๋, dialog์ ๋ฌธ๋งฅ์์, ์์ฐ์ด์์ ์ง์ ํ์ตํ ์ ์๋ ์์คํ ์ ๊ฐ๋ฐํ๊ณ ๊ฐ๋ ์ฆ๋ช ์ ์ ์ฆํด์ผ ํ ํ์์ฑ์ ๋ํด ์ฃผ์ฅํ์๋ค-QA task๋ฅผ reward signal ์์ด teacher์ ์ถ๋ ฅ์ forward prediction์ ์ฌ์ฉํจ์ผ๋ก์จ ํ์ตํจ. dialog๋ ๋งค์ฐ ํฅ๋ฏธ๋ก์ด ์ ๊ทผ๋ฒ์ด์ง๋ง, ์ด๊ฒ์ด ๋๋ฌด ์ ํ๋์ง๋ ์์๋์ง ๊ฑฑ์ ํ์๋ค. ์ธํฐ๋ท์ interactive communication์ ๋ํ ํ์์์ด ์๋์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฐฉ๋ํ ์์ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋ ผ๋ฌธ์์์ ์ถ์ธก์ ์ถฉ๋ถํ ์ฉ๋์ ๊ฐ์ง๊ณ ์๋ language model์ ์กฐ๋ฌ์ ๋ํ ์ด๋ค์ ๋ฐฉ๋ฒ์ ๋ํด ๊ฐ์ฃผํ์ง ์๊ณ , task๋ฅผ ๋ ์ ์์ธกํ๊ธฐ ์ํด natural language ์ํ์ค์์ ์ค๋ช ๋ task๋ฅผ ์ถ๋ก ํ๊ณ ์ํํ๊ธฐ ์ํด ํ์ต๋๊ธฐ ์์ํ์๋ค. ๋ง์ฝ, language model์ด ์ด๋ฅผ ์ํํ ์ ์๋ค๋ฉด, unsupervised multitask learning์ ์ํํ๋ ๊ฒ์ด๋ ๊ฐ์ ๊ฒ์ด๋ค.
2-1. Training Dataset
๋ค์ํ๊ณ , ๊ฑฐ์ ์ ํ๋์ง ์์ text๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ์ ์ธ Common Crawl์ ๋ฌธ์์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์กฐํ๋ WebText์ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ ํ์ต๋์๋ค.
2-2. Input Representation
general language model์ ์ด๋ ํ string์ ํ๋ฅ ์ ๊ณ์ฐํ ์ ์์ด์ผ ํ๋ค. ํ์ฌ์ ๊ฑฐ๋ํ ์ค์ผ์ผ์ LM์ model-ableํ string์ ๊ณต๊ฐ์ ์ ํํ๋ lower-casing, ํ ํฐํ, vocabulary์ ์๋ ํ ํฐ์ ์ ์ธ์ ๊ฐ์ ์ ์ฒ๋ฆฌ ์คํ ์ ํฌํจํ๋ค. Unicode string์ UTF-8์ ์ํ์ค๋ก ์งํํ๋ ๊ฒ์ ์ด๋ฌํ ์๊ตฌ์ฌํญ์ ์๋ฒฝํ ๋ง์กฑํ๋ค. ํ์ฌ์ byte-level LM์ word-level LM์ ๋นํด One Billion Word Benchmark ๊ฐ์ ๊ฑฐ๋ํ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์๋ ๋ณ๋ก ๊ฒฝ์๋ ฅ์ ๊ฐ์ง ๋ชปํ๋ค.
Byte Pair Encdoing$($BPE$)$๋ ๋น๋ฒํ ๊ธฐํธ ์ํ์ค์ ๋ํ word-level ์ ๋ ฅ๊ณผ ๋๋ฌธ ๊ธฐํธ ์ํ์ค์ ๋ํ character-level ์ ๋ ฅ ์ฌ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ณด๊ฐํ๋ character ๋ฐ word-level language modeling ์ฌ์ด์ ์ค์ฉ์ ์ธ ์ค๊ฐ ์ง์ ์ด๋ค. BPE๋ ์ด ์ด๋ฆ์๋ ๋ถ๊ตฌํ๊ณ , ์ข ์ข byte ์ํ์ค๊ฐ ์๋ Unicode์์ ๊ตฌ๋๋๊ธฐ๋ ํ๋ค. ์ด๋ฌํ ์์ฉ์ ๋ชจ๋ Unicode string์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด Unicode symbol์ ๋ชจ๋ ๊ณต๊ฐ์ ํฌํจํ ๊ฒ์ ์๊ตฌํ๋ค. ์ด๊ฒ์ multi-symbol ํ ํฐ์ด ์ถ๊ฐ๋๊ธฐ ์ ์ 130,000๊ฐ ์ด์์ ๊ธฐ๋ณธ ์ดํ๊ฐ ์์ฑ๋๋ค. ์ด๊ฒ์ 32,000์์ 64,000๊ฐ ์ ๋์ ํ ํฐ ์ดํ๋ฅผ ์ฌ์ฉํ๋ BPE์ ๋น๊ตํ์ฌ ๋งค์ฐ ํฐ ๊ฐ์ด๋ค. ์ด์๋ ๋ฐ๋๋ก, byte-level ๋ฒ์ ์ BPE๋ ์ค์ง 256 ์ฌ์ด์ฆ์ base vocabulary๋ฅผ ์๊ตฌํ๋ค. ํ์ง๋ง, BPE๋ฅผ byte sequence์ ๋ฐ๋ก ์ ์ฉํ๋ฉด, BPE๊ฐ ํ ํฐ ์ดํ๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ํด greedy frequency ๊ธฐ๋ฐ์ heuristic์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ์ต์ ์ด ์๋ ๋ณํฉ์ด ๋ฐ์ํ๋ค. ๋ ผ๋ฌธ์์๋ 'dog'๊ณผ ๊ฐ์ ๋ง์ ๋ณํ์์ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ dog. dog! dog?์ ๊ฐ์ ์ผ๋ฐ์ ์ธ ๋จ์ด์ ๋ง์ ๋ฒ์ ์ ํฌํจํ๋ BPE๋ฅผ ๊ด์ฐฐํ๋ค. ์ด๊ฒ์ model ์ฉ๋๊ณผ ์ ํ๋ vocabulary slot์ sub-optimal ํ ๋น์ผ๋ก ๊ฒฐ๊ณผ๊ฐ ๋์๋ค. ์ด๋ฅผ ํผํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด BPE๊ฐ ๋ชจ๋ byte ์ํ์ค์ ๋ํ chracter category๊ฐ์ ๋ณํฉ๋์ง ์๋๋ก ํ๋ค. ๋ ผ๋ฌธ์์๋ ์์ถ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ ๋์์ ์ฌ๋ฌ ์ดํ ํ ํฐ์ ๊ฑธ์ณ ๋จ์ด ์กฐ๊ฐ์ ์ต์ํํ๋ ๊ณต๊ฐ์ ๋ํ ์์ธ๋ฅผ ์ถ๊ฐํ๋ค.
์ด๋ฌํ ์ ๋ ฅ representation์ word-level LM์ ์ด์ ๊ณผ byte-level ์ ๊ทผ๋ฒ์ generality๋ฅผ ๋ฌถ๋ ๊ฒ์ ํ๋ฝํด์ฃผ์๋ค. ๋ ผ๋ฌธ์ ์ ๊ทผ๋ฒ์ ์ด๋ ํ Unicoder string์ ํ๋ฅ ์ ํ ๋นํ ์ ์๊ธฐ ๋๋ฌธ์, ์ด๊ฒ์ pre-processing์ ๊ฐ์ฃผํ์ง ์๋ ์ด๋ ํ ๋ฐ์ดํฐ์ ์ ๋ํ ๋ ผ๋ฌธ์ LM์ ํ๊ฐํ ์ ์๊ฒ ํด์ฃผ์๋ค.
2-3. Model
๋ ผ๋ฌธ์์ ์๊ฐํ ๋ชจ๋ธ์ Transforemr ๊ธฐ๋ฐ์ architecture์ด๋ค. ์ ์๋ ๋ชจ๋ธ์ OpenAI GPT ๋ชจ๋ธ์ ๋๋ถ๋ถ ๋ฐ๋ฅด๋๋ฐ, ์ฝ๊ฐ์ ์์ ์ ๊ฐ๋ฏธํ์๋ค. pre-activation residual network์ ๋น์ทํ๊ฒ Layer normalization์ด ๊ฐ sub-block์ ์ ๋ ฅ์ผ๋ก ์ด๋ํ์๊ณ , ์ถ๊ฐ์ ์ธ layer normalization์ด ๋ง์ง๋ง attention block ์ดํ์ ์ถ๊ฐ๋์๋ค. ๋ชจ๋ธ์ ๊นํผ์ ํจ๊ป residual path์ ์ถ์ ์ ๋ํด ์ค๋ช ํ๋ ์์ ๋ initialization์ด ์ฌ์ฉ๋์๋ค. ๋ ผ๋ฌธ์์๋ initialization์์ residual layer์ ๊ฐ์ค์น๋ฅผ ์์ $1/\sqrt{N}$์ ๋ฐ๋ผ ๋ชจ๋ธ์ scale ํ๋ค. ์ฌ๊ธฐ์ $N$์ residual layer์ ์์ด๋ค. vocabulary๋ 50,257๋ก ํ์ฅ๋์๋ค. ๋ํ ๋ฌธ๋งฅ ํฌ๊ธฐ๋ฅผ 512์์ 1024๋ก ๋๋ ธ๊ณ , ๋์ฑ ํฐ 512์ barch size๋ฅผ ์ฌ์ฉํ์๋ค.
3. Generalization vs Memorization
computer vision์์์ ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ํ๋ฒํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์๋ ์ฌ์ํ์ง ์์ ์์ ๊ฑฐ์ ๋ณต์ ์ ๊ฐ๊น์ด ์ด๋ฏธ์ง๋ค์ ํฌํจํ๊ณ ์๋ค๋ ๊ฒ์ ๋ฐํ๋๋ค. ์๋ฅผ ๋ค์ด, CIFAR-10 ๋ฐ์ดํฐ์ ์ ํ๋ จ๊ณผ ํ ์คํธ ์ด๋ฏธ์ง ๊ฐ์ 3.3% ์ ๋์ overlap์ด ์๋ค. ์ด๊ฒ์ machine learning ์์คํ ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ฌ๋ ค์น๊ธฐ๋ฅผ ๋ถ๋ฌ์ผ์ผํจ๋ค. ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ด ๋ฌธ์ ์ ๊ฐ๋ฅ์ฑ์ด ๋์์ ธ WebText์์๋ ์ ์ฌํ ํ์์ด ๋ฐ์ํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค. ๊ทธ๋์ ํ ์คํธ ๋ฐ์ดํฐ๊ฐ ์ผ๋ง ์ ๋ ํ๋ จ ๋ฐ์ดํฐ์์ ๋ํ๋๋์ง๋ฅผ ํ์ ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
์ด๋ฅผ ์ฐ๊ตฌํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ WebText ํ๋ จ ํ ํฐ ์ ์ 8-gram์ ํฌํจํ๋ Bloom filter์ ๋ง๋ค์๋ค. recall์ ํฅ์์ํค๊ธฐ ์ํด, ๋จ์ผ ๊ณต๋ฐฑ์ ๊ตฌ๋ถ ๊ธฐํธ๋ก ์ฌ์ฉํ๋ ์๋ฌธ์ ์์ด ๋ฐ ์ซ์๋ง ํฌํจํ๋๋ก ๋ฌธ์์ด์ ์ ๊ทํํ์๋ค. Bloom filter๋ false positive rate๊ฐ $\frac{1}{10^{8}}$์ด ๋๋๋ก ๊ตฌ์ฑํ์๋ค. ๋ ผ๋ฌธ์์๋ 1,000,000๊ฐ์ ๋ฌธ์๋ฅผ ์์ฑํ์ฌ low false positive rate๋ฅผ ์ ์ฆํ์๊ณ , ๊ทธ ์ค์ 0๊ฐ๊ฐ ํํฐ์ ์ํด ๋ฐ๊ฒฌ๋์๋ค.
์ด๋ฌํ Bloom filter๋ฅผ ์ฌ์ฉํ๋ฉด ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์์ WebText ํ๋ จ ์ ์์๋ ๋ฐ๊ฒฌ๋๋ ํด๋น ๋ฐ์ดํฐ์ ์ 8-gram์ ํผ์ผํ ์ด์ง๋ฅผ ๊ณ์ฐํ ์ ์๋ค. ํ 1์ LM ๋ฒค์น๋งํฌ์ ๋ํ overlap ๋ถ์์ ๋ณด์ฌ์ค๋ค. ๋ณดํต์ LM ๋ฐ์ดํฐ์ ์ test์ ์ WebText์ ํ๋ จ์ ๊ณผ 1์์ 6% ์ ๋์ overlap์ ๋ณด์ฌ์ฃผ๊ณ , ํ๊ท ์ ์ผ๋ก 3.2% ์ ๋์ overlap์ ๋ณด์ฌ์ค๋ค. ์ด๋ ์ ๋ ๋๋๊ฒ๋, ๋ง์ ๋ฐ์ดํฐ์ ์ ์๊ธฐ ์์ ์ ํ๋ จ ์คํ๋ฆฟ์์ ๋์ฑ ํฐ overlap์ ๊ฐ์ง๋ค. ํ๊ท ์ ์ผ๋ก 5.9% ์ ๋์ overlap์ ๋ณด์ฌ์ค๋ค.
๋ ผ๋ฌธ์์์ ์ ๊ทผ ๋ฐฉ์์ recall์ ์ต์ ํ๋์ด ์์ผ๋ฉฐ, overlap์ ์๋์ผ๋ก ๊ฒ์ฌํ๋ฉด ๋ง์ ์ผ๋ฐ์ ์ธ phrase๊ฐ ํ์๋์ง๋ง, ์ค๋ณต ๋ฐ์ดํฐ๋ก ์ธํด ๋์ฑ ๊ธด ์ผ์น ํญ๋ชฉ์ด ๋ง์ด ์๋ค. ์ด๊ฒ์ WebText์๊ฒ ํน๋ณํ ๊ฒ์ ์๋๋ค. ์๋ฅผ ๋ค์ด, WikiText-103์ ํ ์คํธ์ ์ ํ๋ จ์ ์ ํฌํจ๋์ด ์๋ article์ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ ์์๋๋ค. ์ฌ๊ธฐ์๋ ํ ์คํธ์ ์ ์ค์ง 60๊ฐ์ article๋ง ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ์ต์ํ์ overlap 1.6% ์ ๋๊ฐ ์์๋ค. ๋์ฑ ๋๋ ต๊ฒ๋, ๋ ผ๋ฌธ์์์ procddure์ ๋ฐ๋ฅด๋ฉด 1BW๋ ์์ ์ ํ๋ จ์ ๊ณผ ๊ฑฐ์ 13.2%์ overlap์ ๋ณด์ฌ์คฌ๋ค.
Winograd Schema Challenge์ ๋ํด, WebText ํ๋ จ์ ๊ณผ ์ด๋ ํ 8-gram overlap์ ๊ฐ์ง๋ ์ค์ง 10๊ฐ์ shemata๋ฅผ ์ฐพ์๋ค. ์ด ์ค์ 2๊ฐ๋ ๋น๋ ผ๋ฆฌ์ ์ธ match์ด๊ณ , ๋จ์ 8๊ฐ ์ค ์ค์ง 1๊ฐ์ schema๋ง์ด answer์ ์ฃผ๋ ์ด๋ ํ ๋ฌธ๋งฅ์ ๋ฑ์ฅํ์๋ค.
CoQA์ ๋ํด, news domain์์์ 15% ์ ๋์ ๋ฌธ์๋ ์ด๋ฏธ WebText์ ์์๊ณ , ๋ชจ๋ธ์ 3๊ฐ์ F1 score์ ๋ํด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. CoQA์ development set ํ๋ ฌ์ 5๊ฐ์ ์๋ก ๋ค๋ฅธ domain์ ๋ํด ํ๊ท ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ๋ค์ํ domain์ ๊ฐ๋ก์ง๋ฅด๋ overlap ๋๋ฌธ์ 0.5์์ 1.0 ์ ๋์ F1 score ์ด๋์ ์ธก์ ํ์๋ค. ํ์ง๋ง, WebText์ ๋งํฌ์ ๋ํ ์ค๋จ ๋ ์ง ์ดํ์ CoQA๊ฐ ๋ฐํ๋์๊ธฐ ๋๋ฌธ์, WebText์๋ ์ด๋ ํ ์ค์ง์ ์ธ ํ๋ จ ์ง๋ฌธ ๋๋ ๋๋ต์ด ๋ค์ด์์ง ์์๋ค.
LAMBADA์์๋, ํ๊ท ์ overlap์ด 1.2%์๋ค. GPT-2๋ overlap์ด 15% ์ด์์ธ ์์ ์์ ์ฝ 2 perplexity๋ฅผ ๋ ์ ์ํํ์๋ค. ๋ชจ๋ ์์์ ๋ํด overlap์ ๋ชจ๋ ๋ฐฐ์ ํ ๋, ํ๋ ฌ์ ๋ค์ ๊ณ์ฐํ๋ฉด, perplexity๊ฐ 8.6์์ 8.7๋ก ๋ฐ๋์๊ณ , ์ ํ๋ ๋ํ 63.2%์์ 62.9%๋ก ์ค์๋ค. ์ ๋ฐ์ ์ธ ๊ฒฐ๊ณผ์์ ์ด๋ฌํ ์์ ๋ณํ๋ 200๊ฐ์ ์ํ ์ค ์ค์ง ํ๋๋ง์ด ์๋นํ overlap์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๋ฐ์ ์ผ๋ก, ๋ ผ๋ฌธ์ ๋ถ์์ ๊ตฌ์ฒด์ ์ธ ํ๊ฐ ๋ฐ์ดํฐ์ ๊ณผ WebText์ ํ๋ จ ๋ฐ์ดํฐ์ ๊ฐ์ data overlap์ ์์ง๋ง ์ผ๊ด๋ ์ฅ์ ์ ์ ๊ณตํ๋ค๊ณ ์ ์ํ์๋ค. ํ์ง๋ง, ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์ ๋ํด ํ 1์์ ๊ฐ์กฐํด์ ธ์๋ฏ์ด, ํ์ค ํ๋ จ์ ๊ณผ ํ ์คํธ์ ์ฌ์ด์ ์ด๋ฏธ ์กด์ฌํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ ํฐ overlap์ ๋ฐ๊ฒฌํ์ง๋ ๋ชปํ๋ค.
๋งค์ฐ ์ ์ฌํ ํ ์คํธ๊ฐ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ์ดํดํ๊ณ ์ธก๋ํ๋๋ ๊ฒ์ ์ค์ํ ์ฐ๊ตฌ ์ฃผ์ ์ด๋ค. scalable fuzzy matching ์ฒ๋ผ ๋์ฑ ์ de-duplicationํ๋ ๊ธฐ์ ์ ์ด๋ฌํ ์ง๋ฌธ์ ๋ํด ๋์ฑ ์ ๋๋ตํ ์ ์๋๋ก ๋์์ค๋ค. ์ง๊ธ์, ๋ ผ๋ฌธ์์๋ de-duplication์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ n-gram overlap์ ์๋ก์ด NLP ๋ฐ์ดํฐ์ ์ ๋ํด ํ๋ จ๊ณผ ํ ์คํธ ์คํ๋ฆฟ์ ํ๋ ์ค์ ์ค์ํ ์ ์ฆ ๋จ๊ณ์ ๋ถ๋ณ ์ฒดํฌ๋ก ์ฌ์ฉํ๋ ๊ฒ์ ์ถ์ฒํ๋ค.
WebText์ ์ฑ๋ฅ์ด memorization์ ๊ธฐ์ธํ๋์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ ๋๋ค๋ฅธ ์ ์ฌ์ ๋ฐฉ๋ฒ์ ์์ ์ held-out set์์ ์ฑ๋ฅ์ ๊ฒ์ฌํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆผ 2์ ๋์์๋ ๊ฒ์ฒ๋ผ, WebText์ ํ๋ จ์ ๊ณผ ํ ์คํธ์ ์ ์ฑ๋ฅ์ ๋น์ทํ๊ณ , model์ ํฌ๊ธฐ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ๋์ ์ฑ๋ฅ์ด ํจ๊ป ํฅ์๋๊ณ ์๋ค. ์ด๊ฒ์ GPT-2๊ฐ WebText์ ๋ํด ๋ง์ ์๋ฏธ๋ก underfitting ๋์ด ์๋ค๋ ๊ฒ์ ์ ์ํ๋ค.
์ฐธ๊ณ ๋ฌธํ