Pre-trained Language Modeling paper reading
์์ฆ NLP ๋ถ์ผ์์ ๋จ๊ฑฐ์ด ๊ฐ์์ธ pre-trained Language Modeling์ ๊ดํ ์ ๋ช ํ ๋ ผ๋ฌธ๋ค์ ์ฝ๊ณ ๋ฆฌ๋ทฐ๋ฅผ ํ์๋ค. ์ด Pre-trained Language Modeling paper reading์ ์ด ํฌ์คํธ๋ง์ผ๋ก ๋๋๋ ๊ฒ์ด ์๋๋ผ ์ฐ์๋ ํฌ์คํธ๋ฅผ ์์ฑํ ์๊ฐ์ด๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ ๋ฒ ํฌ์คํธ์ BERT์ ์ด์ด์ GPT-1์ ๋ํด์ ๋ฆฌ๋ทฐํ์๋ค.
- ELMo: 'Deep contextualized word representations' reading & review
- BERT: 'Pre-training of Deep Bidirectional Transformers for Language Understanding' reading & review
- GPT-1: 'Improving Language Understanding by Generative Pre-Training' reading & review(this post)
Table of Contents
1. Introduction
2. GPT-1
2-1. Unsupervised pre-training
2-2. Supervised fine-tuning
2-3. Task specific input transformations
3. Analysis
1. Introduction
์ธ์์๋ labeling์ด ๋์ง ์์ ๋ฐ์ดํฐ๋ ํ๋ถํ์ง๋ง, ๋ผ๋ฒจ๋ง์ด ๋์ด ์๋ ๋ฐ์ดํฐ๋ ๋งค์ฐ ๋ถ์กฑํ๋ค. ์ด๋ฌํ ์ ์ด ๋ชจ๋ธ์ ๊ตฌ๋ณ๋๊ฒ ํ์ต์์ผ์ ์ ํฉํ ์ฑ๋ฅ์ ๋ด๊ฒ ํ๋ ๊ฒ์ ์ด๋ ค์์ ์ฃผ๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ํ ๋ผ๋ฒจ๋ง์ด ๋์ง ์์ corpus์ ๋ํด generative pre-training์ ์งํํ๊ณ , ๊ฐ๊ฐ์ task์ ๋ํด discriminative fine-tuning์ ์งํํ์๋ค.
learn from raw text
raw text์ ๋ํด์ ํจ๊ณผ์ ์ผ๋ก ํ์ต์ ํ๋ ๋ฅ๋ ฅ์ NLP์์ ์ง๋ํ์ต์ ๋ํ ์์กด๋๋ฅผ ์ํ์ํฌ ์ ์๋ค. ๋๋ถ๋ถ์ ๋ฅ๋ฌ๋ methods๋ ๋ง์ ์์ ๋ผ๋ฒจ๋ง์ด ๋์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ํ์ต์ ํ๊ฒ ๋๋๋ฐ, ์ด๋ ์ด methods์ ๊ฐ์ฉ์ฑ(๋ค์ํ task๋ค์ ํด๊ฒฐํ ์ ์๋ ๋ฅ๋ ฅ)์ ๋จ์ด๋จ๋ฆฌ๊ฒ ํ๋ค. ์ด๋ฌํ ์ํฉ์์ ๋ผ๋ฒจ๋ง์ด ๋์ง ์์ ๋ฐ์ดํฐ์ linguistic information์ ํ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ๋ ๋ง์ annotation์ ์์งํ๋ ๋ฐ ์ ์ฉํ ๋์์ ์ ๊ณตํ๋ค. ์ถ๊ฐ์ ์ผ๋ก supervision์ด ๊ฐ๋ฅํ๋ค๋ฉด, ๋น์ง๋์ ์ผ๋ก ์ข์ language representation์ ํ์ตํ๊ฒ ๋๋ฉด ์ฑ๋ฅ์ ๋ ํฅ์์ํฌ ์ ์๋ค.
leveraging problem
๋ผ๋ฒจ๋ง์ด ๋์ด ์์ง ์์ text์ ๋ํด์ word-level ์ด์์ ์ ๋ณด ํ์ฉ์ ๋ค์์ ๋ ๊ฐ์ง ์ด์ ๋ก ์ธํด ์๋นํ ์ด๋ ต๋ค.
- ์์ง ์ด๋ค optimization์ด ๋ฒ์ญ์ usefulํ text representation์ ํ์ตํ๋ ๋ฐ์ ๊ฐ์ฅ ํจ์จ์ ์ธ์ง ์ ๋ชจ๋ฅธ๋ค.
- ํ์ต๋ representation์ target task๋ก ๋ฒ์ญํ๋ ๊ฒ์ ๋ํด ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ธ์ง์ ๋ํ ํฉ์๊ฐ ์๋ค.
์ด๋ฌํ ๋ถํ์ค์ฑ์ด language processing์ ์ํ ํจ๊ณผ์ ์ธ ์ค์ง๋ํ์ต ๋ฐฉ๋ฒ์ ๋ํ ๋ฐ์ ์ ๊ฐ๋ก๋ง๋๋ค.
semi-supervised learning approach
์ด ๋ ผ๋ฌธ์์๋ ๋น์ง๋ pre-training๊ณผ ์ง๋ fine-tuning์ ํฉ์ณ์ ์ค์ง๋ํ์ต ๋ฐฉ๋ฒ์ผ๋ก language understanding์ ์ฌ์ฉํ์๋ค. ๋ ผ๋ฌธ์ ๋ชฉํ๋ ๊ด๋ฒ์ํ representation์ ํ์ต์์ผ์ ์กฐ๊ธ์ adaptation๋ง์ผ๋ก ๊ด๋ฒ์ํ tasks์ ๋ํด ๋ฒ์ญ์ ์งํํ ์ ์๋๋ก ๋ง๋๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ ๋ผ๋ฒจ๋ง์ด๋์ง ์์ ํ ์คํธ์ ๋๊ท๋ชจ corpus์ ์๋์ผ๋ก annotation์ด ๋ฌ๋ฆฐ ํ๋ จ ์์ (target tasks)๊ฐ ์๋ ์ฌ๋ฌ ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ์ก์ธ์ค๋ฅผ ๊ฐ์ ํ๋ค. ๋ ผ๋ฌธ์ ์ค์ ์์๋ ์ด๋ฌํ target tasks๊ฐ ๋ผ๋ฒจ๋ง์ด๋์ง ์์ corpus์ ๋์ผํ ๋๋ฉ์ธ์ ์์ ํ์๊ฐ ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ 2-stage ํ์ต ๋ฐฉ์์ ์ฑํํ์๋ค.
- ๋ผ๋ฒจ๋ง์ด ๋์ง ์์ ๋ฐ์ดํฐ์ ๋ํ์ฌ LM์ ์ฌ์ฉํ์ฌ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ด๊ธฐ parameters๋ฅผ ํ์ต์์ผฐ๋ค.
- ์ด ํ์ต๋ parameters๋ฅผ ์ง๋ํ์ต์ ์ฌ์ฉํ์ฌ target task์ ์ ์ฉํ์๋ค.
moder architecture
๋ชจ๋ธ์ architecture์ ์ํด Transformer์ ์ฌ์ฉํ์๋ค. Transformer์ ์ฌ์ฉํจ์ผ๋ก์จ text์ ๋ํด ๋ long-term dependencyํ๊ธฐ ์ํ structured๋ memory๋ฅผ ์ ๊ณตํ์๋ค. ๋ฒ์ญ์ ์งํํ๋ ์ค์ traversal-style๋ก๋ถํฐ ์ ๋๋ task-specificํ input adaptation์ ํ์ฉํ์๋ค. traversla-style์ structured text input์ ํ๋์ ์ฐ์๋ ํ ํฐ ์ํ์ค๋ก ๋๋๋ ๊ฒ์ ๋งํ๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ pre-trined model์ architecture์ ์กฐ๊ธ์ ๋ณํ๋ง์ผ๋ก ํจ๊ณผ์ ์ผ๋ก fine-tune ํ ์ ์๋๋ก ๋์์คฌ๋ค.
2. GPT-1
ํ์ต ๊ณผ์ ์ ๋ ๊ฐ์ stage๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ์ฒซ ๋ฒ์งธ ์คํ ์ด์ง์์๋ ๋๋์ ํฐ text corpus์ ๋ํด์ high-capacity language model์ ํ์ตํ๋ค. ๋ ๋ฒ์งธ ์คํ ์ด์ง์์๋ model์ ๊ฐ๊ฐ์ task์ ๋ํด์ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ์ ํจ๊ป ์ ์ฉํ๋ fine-tuning์ ์งํํ๋ค.
2-1. Unsupervised pre-training
ํ์ต๋์ง ์์ corpus์ธ U = {u_1, u_2, ... , u_n} ์ด ์ฃผ์ด์ก์ ๋, ํ์ค language modeling ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ๋ฅ์ฑ์ ์ต๋ํํ์๋ค.
์์ ์์์์ k๋ context windows์ ํฌ๊ธฐ์ด๊ณ , ์กฐ๊ฑด๋ถ ํ๋ฅ P๋ ์ ๊ฒฝ๋ง๊ณผ parameter Θ ๋ฅผ ํ์ฉํ์ฌ modeling ๋๋ค. ์ด ํ๋ผ๋ฏธํฐ๋ค์ SGD(Stochastic Gradient Descent) ์ ์ด์ฉํ์ฌ ํ์ต๋๋ค. ์์ ์์ ํ์ด์ ์ค๋ช ํ๋ฉด u_i ์ด์ ์ ๋จ์ด๋ค์ ๊ฐ์ง๊ณ u_i๋ฒ์งธ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ฒ์ ์ต๋ํํ๋ ์์์ด๋ผ๊ณ ํ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ multi-layer Transformer Decoder์ language modeling์ ์ํ์ฌ ์ฌ์ฉํ์๋ค. ์ด ๋ง์ธ ์ฆ์จ, GPT-1์ Transformer์ Decoder์ ์ญ์ฑ ์ฌ๋ ค์์์ language modeling์ ์งํํ๋ค๊ณ ํ ์ ์๋ค. ์ด ๋ชจ๋ธ์ ๋์ token์ ๋ํ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์์น๋ณ feed-forward layer๊ฐ ๋ค๋ฐ๋ฅด๋ input context token์ ๋ํด multi-headed self-attention์ ์ ์ฉํ๋ค.
์์ ์์์ transformer block๋ค ์์์ hidden state๋ค์ ๊ณ์ฐํ๋ ๋ฐฉ์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ฌ๊ธฐ์ h_l์ l๋ฒ์งธ hidden state์ ๊ฐ์ผ๋ก transformer block์ l-1 ๋ฒ์งธ์ hidden state์ธ h_l-1์ ๊ฐ์ ์ง์ด๋ฃ์์ ๋ ๊ตฌํ ์ ์๋ค. U = (u_-k, ..., u_-1)์ token๋ค์ context vector์ด๊ณ , n์ layer์ ๊ฐ์์ด๊ณ , W_e๋ token embedding matrix, W_p๋ position embedding matrix์ด๋ค.
GPT-1์์ ์ฌ์ฉํ๋ Transformer์ decoder๋ Masked self-attention๊ณผ Feed Forward Neural Network๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
2-2. Supervised fine-tuning
์์ ์์ 1์์ ์ฒ๋ผ ํ๋ จ์ ๋ง์น๊ณ , parameters๋ฅผ supervised target task์ ์ ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ผ๋ฒจ๋ง์ด ๋์ด ์๋ ๋ฐ์ดํฐ์ C๋ฅผ ๊ฐ์ ํ๋ค. ์ฌ๊ธฐ์ ๊ฐ๊ฐ์ instance๋ label y์ ํจ๊ป input tokens์ ์ํ์ค์ธ x^1, ..., x^m์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ ๋ ฅ๊ฐ๋ค์ pre-trained odel์ ๊ฑฐ์ณ๊ฐ๋ฉด์ ๋ง์ง๋ง transformer block์ activation์ธ h^l_m ์ ์ป๊ฒ ๋๋ค. ๊ทธ ๋ค์์ ์ด๊ฒ์ ํ๋ผ๋ฏธํฐ W_y์ ํจ๊ป y๋ฅผ ์์ธกํ๊ธฐ ์ํด linear output layer์ ๋ฃ์ด์ง๊ฒ ๋๋ค. ์ด ์์์ ๋ค์๊ณผ ๊ฐ๋ค. ๋ค์์ ์์ 3์ ํด์ํ๋ฉด m ๊ฐ์ ํ ํฐ ์ํ์ค๊ฐ ์ฃผ์ด์ก์ ๋, y๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ GPT์ unsupervised pre-training์ ๋ง์ง๋ง hidden state ๊ฐ์ ๊ฐ์ง๊ณ ์์ linear layer๋ฅผ ์์ด ๋ค์์ softmax๋ฅผ ๊ฑฐ์ณ์ ํ๋ฅ ๊ฐ์ ๊ณ์ฐํ๋ค.
์ด๊ฒ์ maximaize๋ฅผ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋ชฉํ๋ฅผ ์ ๊ณตํ๋ค. ๋ฐ๋ผ์ ๋ค์์ ์์ 4๋ ์ฃผ์ด์ง m ๊ฐ์ ํ ํฐ ์ํ์ค์ ๋ํด์ y๋ฅผ ์์ธกํ๋ ํ๋ฅ ๊ฐ์ ์ต๋ํ ์ํค๋ ์์์ด๋ค.
๋ ผ๋ฌธ์์๋ ๋ํ fine-tuning์ ๋ณด์กฐ ๋ชฉํ๋ก language modeling์ ํฌํจํ๋ ๊ฒ์ด ๋ค์์ ๋ ์ฅ์ ์ ๊ฐ์ ธ์จ๋ค๊ณ ๋งํ๋ค. (a) supervised model์ ์ผ๋ฐํ๋ฅผ ๊ฐ์ (b) ์๋ ด์ ๊ฐ์ํํจ์ผ๋ก์จ ํ์ต์ ๋์์ด ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ ๋ค์์ ๋ชฉ์ ํจ์๋ฅผ optimizeํ์๋ค. (λ๋ ๊ฐ์ค์น ๊ฐ)
์์ ์์์ ์ดํด๋ณด๋ฉด ์ด์ ์ unsupervised pre-training์์ ์งํํ ํ์ต๋์ง ์์ corpus์ ๋ํด ํ์ค LM์ ์ด์ฉํ์ฌ likelihood๋ฅผ ์ต๋ํํ ๊ฐ์ธ L_1(C)์ ๊ฐ์ค์น์ธ λ๋ฅผ ๊ณฑํ ๊ฐ๊ณผ ์ด ์ ์์ ๊ตฌํ๋ L_2๋ฅผ ๋ํ์ฌ L_3(C)์ ๊ตฌํ์๋ค.
์ ๋ฐ์ ์ผ๋ก fine-tuning๊ณผ์ ์์๋ W_y์ embedding์ ์ํ delimiter token(2-3์์ ๋์ฑ ์์ธํ ์ค๋ช )์ ์๊ตฌ๋ก ํ๋ค.
2-3. Task-specific input transformers
GPT์ pre-trained model์ ์ฐ์์ ์ธ text์ ์ํ์ค๋ฅผ ์ด์ฉํ์ฌ ํ์ต๋์๊ธฐ ๋๋ฌธ์, ์ ์ ์์ ์ผ๋ก๋ ์ด๊ฒ์ ์ฌ๋ฌ task์ ์ ์ฉํ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ structured input์ pre-trained model์ด ์ฒ๋ฆฌํ ์ ์๋ ์์ํ๋ ์ํ์ค๋ก ๋ณํํ๋ traversal-style์ ์ฌ์ฉํ๋ค. ์ด๋ฌํ input์ ๋ณํ์ architecture์ ๊ตฌ์กฐ๋ฅผ ํฌ๊ฒ ๋ฐ๊พธ์ง ์๊ณ ํ ์ ์๊ฒ ํ๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ ์ด๋ฌํ input representation์ ๋ณํ์ ๋ํด ์๊ฐํ๋ก ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
- Textual entailment: entailment task์ ๋ํด์ ์ ์ ํ ํฐ ์ํ์ค์ธ p์ ๊ฐ์ค ํ ํฌ ์ํ์ค์ธ h์ delimiter token์ธ $์ฌ์ด์ ๋ฃ์ด์ ํฉ์ณค๋ค.
- Similarity: similarity task์ ๋ํด์ ๋น๊ต๋๋ ๋ ๋ฌธ์ฅ์ ๊ณ ์ ํ ์์๋ ์๋ค. ์ด๋ฅผ ๋ฐ์ํ๊ธฐ ์ํด ์ ๋ ฅ ์ํ์ค๋ฅผ ์์ ํ์ฌ ๊ฐ๋ฅํ ๋ฌธ์ฅ ์์(์ฌ์ด์ ๊ตฌ๋ถ ๊ธฐํธ ํฌํจ)๋ฅผ ๋ชจ๋ ํฌํจํ๊ณ linear output layer์ ๊ณต๊ธ๋๊ธฐ ์ ์ ์์๋ณ๋ก ์ถ๊ฐ๋๋ ๋ ์ํ์ค representation์ธ h^m_l์ ์์ฑํ๊ธฐ ์ํด ๊ฐ๊ฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค.
- QA & Commonsense Reasoning: ์ด task๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ context document์ธ z, question์ธ q, ๊ฐ๋ฅํ ๋๋ต๋ค์ ๋ชจ์์ธ {a_k}๋ฅผ ์ฃผ์๋ค. ๊ทธ ๋ค์์ document context์ question์ ๊ฐ๊ฐ์ ๊ฐ๋ฅํ ๋๋ต๋ค์ ๋ํด์ ํฉ์น๊ณ , ๊ทธ ์ฌ์ด์ delimiter token์ ์ถ๊ฐํด์ [z; q; $; a_k]๋ฅผ ์ป๊ฒ ๋๋ค. ๊ฐ๊ฐ์ ์ํ์ค๋ค์ model๊ณผ ๋ ๋ฆฝ์ ์ผ๋ก ์งํ๋๊ณ , ๊ฐ๋ฅํ ๋๋ต๋ค์ ๋ํด ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์ฐ์ถํ๊ธฐ ์ํด softmax layer์ ์ด์ฉํ์ฌ ์ผ๋ฐํ๋์๋ค.
3. Analysis
Impact of number of layers transferred
๋ ผ๋ฌธ์์๋ ๋ค์ํ ์์ layer๋ฅผ ์ ๋ฌ์ํค๋ ๊ฒ์ ํจ๊ณผ๋ฅผ unsupervised pre-training์ผ๋ก ๋ถํฐ supervised target task์ ๋ํด ์ง์ ์ํํด๋ณด๋ฉด์ ํ์ ํ์๋ค. ์๋ ๊ทธ๋ฆผ 2์ ์ผ์ชฝ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ๋ํ performance์ด๋ค. ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ํ์ค ๋ฐฉ๋ฒ์ performance๋ฅผ ํฅ์์ํจ๋ค๋ ๊ฒฐ๊ณผ๊ฐ ๋์๊ณ , ๊ฐ๊ฐ์ transformer layer์ 9% ์ ๋์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค.
Zero-shot Behaviors
๋ ผ๋ฌธ์์๋ ์ transformer์ ํ์ฉํ language model์ pre-training์ด ํจ๊ณผ์ ์ธ์ง ์๊ณ ์ถ์๋ค. ๊ฐ์ค์ ๊ธฐ๋ณธ generative model์ด language modeling ๊ธฐ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ ผ๋ฌธ์ด ํ๊ฐํ๋ ๋ง์ tasks๋ฅผ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ณ ๋ณํ๊ธฐ์ ๋ ๊ตฌ์กฐํ๋ attention ๋ฉ๋ชจ๋ฆฌ๊ฐ LSTM๊ณผ ๋น๊ตํ์ฌ transfer์ ๋ ์ง์ํ๋ค๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ generative pre-training์ ๋ํ ์ด๋ฐ heuristic์ solution์ ํจ๊ณผ๋ฅผ ์ ๊ทธ๋ฆผ 2์ ์ค๋ฅธ์ชฝ์ ์๊ฐํํ์๋ค. ๊ทธ๋ฆผ์ ์ดํด๋ณด๋ฉด ์ด๋ฌํ heuristic์ solution์ performance๋ ํ๋ จ์ ๊ฑฐ์น๋ฉด์ ์์ ์ ์ด๊ณ ๊พธ์คํ๊ฒ ์์นํ๊ณ ์๋ ๊ฒ์ ์ ์ ์๋๋ฐ, ์ด๋ generative pretraining์ด ๋ค์ํ ๋ฒ์์ ์์ ๊ด๋ จ ๊ธฐ๋ฅ์ ๋ํด ํ์ตํ๋ ๊ฒ์ ์ง์ํ๊ณ ์๋ค๊ณ ์ ์ํ ์ ์๊ฒ ๋๋ค. ๋ ผ๋ฌธ์ ๋ํ LSTM์ด Transformer architecture์ inductive bias๊ฐ ์ ์ก์ ๋์์ด ๋๋ค๋ ๊ฒ์ ์์ํ๋ zero-shot performance์์ ๋ ๋์ ๋ณ๋์ ๋ํ๋ด๋ ๊ฒ์ ๊ด์ฐฐํ๋ค.
์ถ์ฒ
https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
https://www.youtube.com/watch?v=o_Wl29aW5XM