The overview of this paper
์ด ๋ ผ๋ฌธ์ BERT์ replication study๋ก ๋ค์ํ key parameter๋ค๊ณผ training data์ ํฌ๊ธฐ์ ์ค์์ฑ์ ๋ํด ์์๋ณด์๋ค. ๊ทธ ๊ณผ์ ์์ ์ฐ๊ตฌ์ง๋ค์ BERT๋ ์๋นํ undertrained ๋์๋ค๋ ์ฌ์ค์ ์์๋ด์๋ค. ๊ทธ๋ฆฌ๊ณ BERT ์ดํ์ ์ถ์๋ ๋ชจ๋ธ๋ค์ ๋ํด BERT๊ฐ ๊ทธ์ ์๋๋ ๋๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋ค๋ ๊ฒ ๋ํ ์์๋๋ค. ์ค์ ๋ก๋ GLUE, RACE, SQuAD ๊ฐ์ ๋ฐ์ดํฐ์ ์์ SoTA๋ฅผ ์ฐจ์งํ๊ธฐ๋ ํ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์กฐํ๋ ๊ฒ์ ์ด์ ์ ๊ฐ๊ณผ๋์๋ ๋์์ธ ์ ํ๊ณผ ์์ฆ์ ๋ฐํ๋๋ ๊ฐ์ ์๋ค์ ๊ทผ์์ ๋ํด ์๋ฌธ์ ์ ์ ๊ธฐํ์๋ค.
Table of Contents
1. Introduction
2. Background
3. Training Procedure Analysis
3-1. Static vs. Dynamic Masking
3-2. Model Input Format and Next Sentence Prediction
3-3. Training with large batches
3-4. Text Encoding
4. RoBERTa
1. Introduction
ํ์ฌ ์๋ง์ self-training method๋ค์ด ์๊ฐ๋์๋ค. ์๋ฅผ ๋ค์ด, EMLo, GPT, BERT, XLM, XLNet ๊ฐ์ ๋ฐฉ๋ฒ๋ค ๋ง์ด๋ค. ์ด ๋ฐฉ๋ฒ๋ค์ ์๋นํ ์ฑ๋ฅ์ ํฅ์์ ๋ณด์ฌ์คฌ์ง๋ง, ์ด๋ ํ ์ ์ด ์ด ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋์ง ์์ธํ ํ์ธํ ์ ์๋ค๋ ์ ์ด ๋์ ์ด๋ค. ํ๋ จ์ ํ๋๋ฐ ๋๋ ๋น์ฉ์ ์๋นํ๊ธฐ ๋๋ฌธ์, ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ธ์ data๋ฅผ ์ฌ์ฉํ์ฌ, ํ๋ จ์ ์์ ์ค์ด๊ธฐ ๋๋ฌธ์, ๊ฐ modeling์ ์ฅ์ ์ ์ ๋๋ก ํ์ ํ๊ธฐ ํ๋ค๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค.
๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ BERT์ replication study๋ฅผ ์ ์ํ๋๋ฐ, ์ฌ๊ธฐ์๋ hyperparameter tuning๊ณผ ํ๋ จ ์ธํธ ํฌ๊ธฐ์ ํจ๊ณผ์ ๋ํ ์ธ๋ฐํ ํ๊ฐ๊ฐ ํฌํจ๋์ด ์๋ค. ๋ ผ๋ฌธ์์๋ BERT๊ฐ ์๋นํ undertrained ๋์ด ์๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ์๊ณ , ์ด BERT๋ฅผ ๋ฐ์ ์ํจ RoBERTa๋ผ๋ ๋ชจ๋ธ์ ์๊ฐํ์๋ค. ๋ ผ๋ฌธ์์ ์์ ํ ์ ์ ๊ฐ๋จํ๋ฐ, ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ ๋ง์ ์์ ๋ฐ์ดํฐ ์์์, ๋ ํฐ ๋ฐฐ์น๋ฅผ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ ๋ ์ค๋ ํ์ต์ํด
- next sentence prediction ์ ๊ฑฐ
- ๋์ฑ ๊ธด sequence ์์์ ํ์ต
- ํ๋ จ ๋ฐ์ดํฐ์ ๋ํด ์ญ๋์ ์ผ๋ก ๋ณํ๋ masking ํจํด์ ์ ์ฉ์ํด
๊ทธ๋ฆฌ๊ณ ๋ํ, ์ด์ ์ ๋ฐ์ดํฐ์ ๋ค๊ณผ๋ ๋ค๋ฅธ ๋ ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๊ณ ์๋ ์๋ก์ด ๋ฐ์ดํฐ์ CC-NEWS๋ฅผ ์ฌ์ฉํ์๋ค. ์ด์ ๊ฐ์ modification์ ํตํด ์ค์ ๋ก๋ ๋ง์ ๋ถ์ผ์์ SoTA๋ฅผ ์ฐจ์งํ์๊ณ , ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ์์ ๋ masking ๋ชจ๋ธ์ ๋์ฑ ์ข์ ์ฑ๋ฅ์ ๋์ด๋ด๋ ๋ฐ ์๋นํ ๋์์ ์ฃผ์๋ค.
์ด ๋ ผ๋ฌธ์ contribution์ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- BERT ๋์์ธ ์ ํ์ ์ค์์ฑ๊ณผ ํ๋ จ ์ ๋ต, ๊ทธ๋ฆฌ๊ณ downstream task์ ๋ํด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ alternative๋ฅผ ์๊ฐํจ
- ์๋ก์ด ๋ฐ์ดํฐ์ ์ธ CC-NEWS๋ฅผ ์ฌ์ฉํ์ฌ, ๋ ๋ง์ ์์ ๋ฐ์ดํฐ๊ฐ ์ฑ๋ฅ ํฅ์์ ๋์์ ์ค๋ค๋ ์ฌ์ค์ ํ์ธํจ
- ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฅ์๋ ๊ฒ์ ๋ณด๋ฉด, ์ ํฉํ ๋์์ธ ์ ํ ์๋์์ MLM์ด ์ฑ๋ฅ์ ํฅ์์์ผฐ๊ณ , ์์ฆ์ ์๊ฐ๋๋ ์๋ก์ด method๋ค๊ณผ ๋น๊ตํด๋ด๋ ๊ฟ๋ฆฌ์ง ์์ ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
2. Background
์ด ์น์ ์์๋ BERT์ ๊ธฐ๋ณธ์ ์ธ ๋ฐฐ๊ฒฝ์ ๋ํด์ ์ค๋ช ํ๊ณ ์๋ค. ๊ธฐ๋ณธ์ ์ธ setup๊ณผ ๊ตฌ์กฐ, ํ๋ จ ๋ฐฉ๋ฒ, ์ต์ ํ ๋ฐฉ๋ฒ ๋ฑ์ ๋ํด์ ๋ง์ด๋ค. ์ด์ ๋ํด ์์ธํ ํ์ธํ๊ณ ์ถ์ผ๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ์์ค.
3. Training Procedure Analysis
์ด ์น์ ์์๋ ์ด๋ ํ ์ ํ์ด BERT model์ pre-trainํ๋๋ฐ ์ค์ํ์ง ํ๊ตฌํ๊ณ , ์ธก์ ํด๋ณด์๋ค. ๊ทธ๋ฌ๊ธฐ ์ํด ๋ชจ๋ธ์ ๊ณ ์ ํด๋๊ณ ์งํํ๋๋ฐ, BERT_BASE $($L=12, H=768, A=12, 110M params$)$์ ๋๊ฐ์ BERT model๋ก training์ ํ์๋ค.
3-1. Static vs. Dynamic Masking
BERT๋ ๋๋คํ๊ฒ ๋ง์คํน๋๊ณ , ํ ํฐ์ ์์ธกํ๋ค. ๊ธฐ์กด์ BERT์์๋ data ์ ์ฒ๋ฆฌ๋ฅผ ์งํํ ๋, ํ ๋ฒ๋ง masking์ ์ํํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก, single static mask๊ฐ ์งํ๋๋ค. ๋งค epoch์์ ๊ฐ๊ฐ์ training instance์ ๋ํด ๋๊ฐ์ mask๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํผํ๊ธฐ ์ํด, ํ๋ จ ๋ฐ์ดํฐ๋ 10๋ฒ ๋ณต์ ๋๋๋ฐ, ๊ฐ ์ํ์ค๋ ๊ทธ์ ๋ฐ๋ผ 40 epoch์ training ์์์ ์๋ก ๋ค๋ฅด๊ฒ 10๋ฒ์ฉ ๋ง์คํน ๋๋ค. ๋ฐ๋ผ์, ๊ฐ training sequence๋ ํ๋ จ ์ค์ ๊ฐ์ ๋ง์คํฌ๋ก 4๋ฒ์ฉ ๋ชฉ๊ฒฉ๋๋ค.
์ด๋ฅผ ๋ชจ๋ธ์ sequence๋ฅผ ๋ฃ์ ๋๋ง๋ค masking ํจํด์ ์์ฑํ๋ dynamic masking๊ณผ ๋น๊ตํด๋ณด์๋ค. ์ด๊ฒ์ ๋์ฑ ๋ง์ step๊ณผ ๋์ฑ ํฐ ๋ฐ์ดํฐ์ ์ ๋ํด pretraining์ ํ ๋ ๋งค์ฐ ์ค์ํ๋ค. ๋ค์์ ํ 1์ BERT_BASE์ ๋ํ static๊ณผ dynamic masking์ ์ฑ๋ฅ์ ๋น๊ตํด์ค๋ค.
๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, static๋ ๋๋ฆ ๊ด์ฐฎ์ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ ์ฌ์ง์ด๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ์ง๋ง, ์ ๋ฐ์ ์ธ ๋ถ๋ถ์์ dynamic masking์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋์ ๋ณธ ๋ ผ๋ฌธ์์๋ dynamic masking์ ์ฌ์ฉํ๋ค.
3-2. Model Input Format and Next Sentence Prediction
๊ธฐ์กด BERT์ pretraining procedure์์๋ ๋ชจ๋ธ์ด ๋๊ฐ์ document ๋ด์์ ๋์จ ์ด์ด์ง ๋ฌธ์ฅ์ด๊ฑฐ๋, ๋ค๋ฅธ ๋ฌธ์ฅ์์ ๋์จ ๋ ๋ฌธ์ฅ์ด ํฉ์ณ์ง ๋ ๊ฐ์ document segment๋ฅผ ๋ฐ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก, masked language modeling์์, ๋ชจ๋ธ์ document segment๊ฐ ๋ณด์กฐ NSP$($Next Sentence Prediction$)$ loss๋ฅผ ํตํด ๋์ผํ๊ฑฐ๋ ๋ณ๊ฐ์ ๋ฌธ์์์ ์ค๋์ง ์ฌ๋ถ๋ฅผ ์์ธกํ๋๋ก ํ๋ จ๋๋ค.
์ด์ ์ ์ฐ๊ตฌ๋ค์์ NSP loss๋ ๊ธฐ์กด์ BERT๋ฅผ ํ๋ จํ ๋ ๋งค์ฐ ์ค์ํ ์์๋ก ์ฌ๊ฒจ์ง๊ณ ์์๋ค. ๋ง์ฝ NSP๋ฅผ ์ ๊ฑฐํ๋ค๋ฉด, performance์ ์๋นํ ํด๋ฅผ ๊ฐํ๊ฒ ๋๋ค๊ณ ์๋ ค์ ธ ์์๋ค. ํ์ง๋ง, ์ต๊ทผ์ ์ฐ๊ตฌ์์ NSP loss์ ํ์์ฑ์ ๋ํด์ ์๊ตฌ์ฌ์ ์ ๊ธฐํ๊ธฐ ์์ํ๋ค. ์ด๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ๋ค์ํ alternative training format์ ํตํด ์์๋ณด์๋ค.
- SEGMENT-PAIR + NSP: BERT์ ์ ๋ ฅ ํ์์ NSP loss์ ํจ๊ป ๋ฐ๋๋ค. ๊ฐ ์ ๋ ฅ์ segment ์์ ๊ฐ์ง๊ณ ์๊ณ , ๊ฐ๊ฐ์ ๋ค์ค์ natural sentence๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ์ต์ข ๊ธธ์ด๋ 512 token๋ณด๋ค ์ ์ด์ผ๋ง ํ๋ค.
- SENTENCE-PAIR + NSP: ๊ฐ ์ ๋ ฅ์ natural sentence์ ์์ ๊ฐ์ง๊ณ ์๊ณ , ๊ฐ์ document ๋ด์์ ๊ฐ์ง๊ณ ์ค๊ฑฐ๋ ์๋ก ๋ค๋ฅธ document ๋ด์์ ๊ฐ์ง๊ณ ์๋ค. ๊ทธ๋์ ์ ๋ ฅ์ 512 token ๋ณด๋ค ์งง์ ์๋ฐ์ ์๊ฒ ๋๋ค. ๊ทธ๋์ batch size๋ฅผ ๋๋ฆผ์ผ๋ก์จ ์ด token์ ์๊ฐ SEGMENT-PAIR + NSP์ ๋น์ทํ๊ฒ ๋ง์ถ์๋ค. ๊ทธ๋ฆฌ๊ณ NSP loss๋ํ ์ป์๋ค.
- FULL-SENTENCES: ๊ฐ ์ ๋ ฅ์ ์ ์ฒด ๊ธธ์ด๊ฐ ์ต๋ 512๊ฐ์ ํ ํฐ์ด ๋๋๋ก ํ๋ ์ด์์ ๋ฌธ์์์ ์ฐ์์ ์ผ๋ก ์ํ๋ง๋ ์ ์ฒด ๋ฌธ์ฅ์ผ๋ก ์ฑ์์ง๋ค. ๊ทธ๋์ ์ ๋ ฅ์ document boundaries๋ฅผ ๋์ ์๋ ์๋ค. ํ ๋ฌธ์์ ๋ง์ง๋ง์ ๋ค๋ค๋ฅด๋ฉด, ๋ค์ ๋ฌธ์์์ ๋ฌธ์ฅ์ ์ํ๋งํ๊ณ ๋ฌธ์ ์ฌ์ด์ ์ถ๊ฐ์ ์ผ๋ก separator token์ ์ถ๊ฐํ๋ค. ์ฌ๊ธฐ์๋ NSP loss๋ฅผ ์ ๊ฑฐํ์๋ค.
- DOC-SENTENCES: ์ ๋ ฅ์ FULL-SENTENCES์ ๋น์ทํ๊ฒ ์์ฑ๋์์ง๋ง, ์ฌ๊ธฐ์๋ document boundaries๋ฅผ ๋์ง๋ ์๋๋ค. ์ ๋ ฅ์ด ๋ฌธ์์ ๋ง์ง๋ง ๊ฐ๊น์ด์์ ์ํ๋ง์ด ๋๋ฉด ์ด๊ฒ์ 512๊ฐ์ token๋ณด๋ค๋ ์งง์ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, FULL-SENTENCES์ ๋น์ทํ ์์ ์ด token ์๋ฅผ ๊ฐ๊ธฐ ์ํด ์ญ๋์ ์ผ๋ก batch size๋ฅผ ์ฆ๊ฐ์์ผฐ๋ค. ์ฌ๊ธฐ์๋ NSP loss๋ฅผ ์ ๊ฑฐํ์๋ค.
Results
๋ค์์ ํ 2๋ 4๊ฐ์ ๋ค๋ฅธ ์ธํ ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
์ฒซ ๋ฒ์งธ๋ก, ๊ธฐ์กด์ SEGMENT-PAIR ์ ๋ ฅ ํฌ๋งท์ SENTENCE-PAIR ํฌ๋งท๊ณผ ๋น๊ตํ์๋ค. ์ด ๋ ํฌ๋งท์ NSP loss๋ฅผ ์ป์ง๋ง, ํ์์ ๊ฒฝ์ฐ์๋ single sentence๋ฅผ ์ฌ์ฉํ๋ค. ๋ ผ๋ฌธ์์๋ individual sentence๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด downstream task์ ์ฑ๋ฅ์ ํด๋ฅผ ๊ฐํ๋ค ๋ผ๋ ์ ์ ์ฐพ์๋ด์๋ค. ์ด๊ฒ์ด ๋ ผ๋ฌธ์์ ๊ฐ์ ํ๋ ๊ฒ์ธ๋ฐ, ์๋ํ๋ฉด ๋ชจ๋ธ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํ์ตํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ ๋ค์์ NSP loss๊ฐ ์๋ training๊ณผ single document์ ํ ์คํธ ๋ธ๋ก์ ์ฌ์ฉํ training์ ๋น๊ตํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ธํ ์ด ๊ธฐ์กด์ BERT_BASE์ ๊ฒฐ๊ณผ๋ฅผ ๋ฅ๊ฐํ๋ ๊ฒ์ ํ์ธํ์๊ณ , NSP loss๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ด downstream task์ ์ฑ๋ฅ์ ์๋๊ฑฐ๋ ์ด์ง ์์น์ํด์ ์์๋๋ค. ์ด๊ฒ์ด ๊ฐ๋ฅํ ์ด์ ๋ ๊ธฐ์กด์ BERT์์ ์ค์ง loss term๋ง์ ์ง์ฐ๊ณ , SEGMENT-PAIR์ ์ ๋ ฅ ํฌ๋งท์ ์ ์งํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ง์นจ๋ด, single document์์ ์ค๋ ์ํ์ค ์ ํ$($DOC-SENTENCES$)$์ด ๋ค์ค์ document์์ ์ํ์ค๋ฅผ ํฉ์น๋ ๊ฒ$($FULL-SENTENCES$)$๋ณด๋ค ์ด์ง ๋์ ๊ฒ์ ์ ์ ์์๋ค. ํ์ง๋ง, DOC-SENTENCES ํฌ๋งท์ ๋ค์ํ barch size ๋๋ฌธ์, ๋ ผ๋ฌธ์์๋ ๊ด๋ จ ์์ ๊ณผ ์ฝ๊ฒ ๋น๊ตํ ์ ์๋๋ก FULL-SENTENCES์ ์ฌ์ฉํ๋ค.
3-3. Training with large batches
์ด์ ์ ์ํ๋ ๋ง์ Neural Machine Translation์์ ๋ณด์ฌ์คฌ๋ฏ์ด learning rate๊ฐ ์ ์ ํ๊ฒ ์์นํ ๋, ๋งค์ฐ ํฐ mini-batches์ ํจ๊ป training์ ์งํํ๋ฉด, optimization ์๋์ end-task์ ์ฑ๋ฅ์ด ํจ๊ป ์์นํ๋ ๊ฒ์ ์ ์ ์์๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ์์๋ ๋ง์ฐฌ๊ฐ์ง๋ก, BERT ๋ํ large batch training์ด ๊ฐ๋ฅํ๋ค.
BERT ๋ ผ๋ฌธ์์๋ BERT_BASE๋ฅผ batch size 256 sequence์ ํจ๊ป 1,000,000 step ๋์ trainํ์๋ค. ์ด๊ฒ์ ๊ธฐ์ธ๊ธฐ ๋์ ์ ํตํ ๊ณ์ฐ ๋น์ฉ์์ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ 2K ์ํ์ค์ธ 125K ๋จ๊ณ ๋๋ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ 8K์ธ 31K ๋จ๊ณ์ ๋ํ ๊ต์ก๊ณผ ๋์ผํ๋ค. ๋ค์์ ํ 3์์๋ barch size๋ฅผ ๋๋ฆฌ๊ณ train data๋ฅผ ํต๊ณผํ๋ ํ์๋ฅผ ์ ์ดํ๋ฉด์ BERT_BASE์ ์์ ์ฑ๋ฅ๊ณผ ๋ณต์ก๋๋ฅผ ๋น๊ตํ์๋ค.
๋ ผ๋ฌธ์์๋ ํฐ batch๋ก training์ ์งํํ๋ ๊ฒ์ด MLM์ ์ํ ๋ณต์ก๋ ๋ฟ๋ง ์๋๋ผ end-task์ ์ ํ๋๋ฅผ ํฅ์์ํจ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ํฐ batch๋ ๋ถ์ฐ ๋ฐ์ดํฐ ๋ณ๋ ฌ training์ ํตํด ๋ณ๋ ฌํํ๊ธฐ๊ฐ ๋ ์ฌ์ฐ๋ฉฐ ์ดํ ์คํ์์๋ 8K ์ํ์ค์ batch๋ก ๊ต์กํ์๋ค.
3-4. Text Encoding
Byte-Pair Encdoing$($BPE$)$๋ character์ word-level representation์ ํ์ด๋ธ๋ฆฌ๋๋ก, ์์ฐ์ด corpora์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ํฐ ์ดํ๋ฅผ ์ฌ์ฉํ ์ ์๊ฒ ํด์ค๋ค. BPE๋ full-word ๋์ ์, subword unit์ ์์กดํ๋ค. ์ฌ๊ธฐ์ subword unit์ training corpus์ statisticalํ ๋ถ์์ ์ํํจ์ผ๋ก์จ ์ถ์ถํ ์ ์๋ค.
BPE์ ์ดํ ํฌ๊ธฐ๋ ๋ณดํต 10K์์ 100K์ subword unit์ผ๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ํ์ง๋ง, unicode character์ ํฌ๊ณ ๋ค์ํ corpora๋ฅผ ๋ชจ๋ธ๋งํ ๋, ์ด ์ดํ์ ์๋นํ ๋ถ๋ถ์ ์ค๋ช ํ ์ ์๋ค. ์ด์ ์ ์ฐ๊ตฌ์์ base subword unit์ผ๋ก unicode character์ ์ฌ์ฉํ๋ ๋์ ์ bytes๋ฅผ ์ฌ์ฉํ๋ ํ๋ช ํ BPE ์์ฉ ๋ฐฉ๋ฒ์ ์๊ฐํ์๋ค. bytes๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ ๋นํ ํฌ๊ธฐ$($50K units$)$์ subword ์ดํ๋ฅผ ํ์ต ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์ด์ค๋ค.
๊ธฐ์กด์ BERT์์๋ ์ ๋ ฅ์ heuristic tokenization rule์ ๋ฐ๋ผ ์ ์ฒ๋ฆฌ๋ฅผ ์งํํ ํ์ ํ์ต๋๋ 30K ํฌ๊ธฐ์ character-level BPE ์ดํ๋ฅผ ์ฌ์ฉํ๋ค. GPT-2 ๋ ผ๋ฌธ์ ๋ฐ๋ผ, ์ ๋ ฅ์ ์ถ๊ฐ ์ฌ์ ์ฒ๋ฆฌ ๋๋ ํ ํฐํ๊ฐ ์๋ ๋์ ์, 50K subword unit์ ํฌํจํ๋ ๋ ํฐ ๋ฐ์ดํธ ์์ค BPE ์ดํ๋ก BERT ๊ต์ก์ ๊ณ ๋ คํ์๋ค. ์ด๊ฒ์ BERT_BASE์ BET_LARGE์ ๋ํด์ ๊ฐ๊ฐ ์ฝ 15,000,000๊ฐ์ 20,000,000๊ฐ์ ์ถ๊ฐ์ ์ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ๊ฐํ์๋ค.
์ด์ ์ ์ฐ๊ตฌ๋ค์ ์ํด ์ด๋ฌํ ์ธ์ฝ๋ฉ๋ค ์ฌ์ด์๋ ๊ทธ์ ์ด์ง ๋ค๋ฅธ ์ ๋ง์ด ์๋ค๋ ๊ฒ์ด ๋๋ฌ๋ฌ๊ณ , BPE๊ฐ ์ด๋ task์ end-task performance์ ๋ํด ์ด์ง ์ข์ง ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ด ์๋ ค์ก๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋ฒ์ฉ ์ธ์ฝ๋ฉ ์ฒด๊ณ์ ์ฅ์ ์ด ์ฝ๊ฐ์ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ฅ๊ฐํ๋ค๊ณ ๋ฏฟ๊ณ ๋๋จธ์ง ์คํ์์ ์ด ์ธ์ฝ๋ฉ์ ์ฌ์ฉํ์๋ค.
4. RoBERTa
์ด์ ์น์ ์์ BERT์ pretraining procedure์ ์์ ํ์ ๋, end-task performance๋ฅผ ํฅ์์์ผฐ์์ ์ ์ ์์๋ค. ์ด์ ์ด๋ฌํ ํฅ์๋ ์ ์ ๋ชจ์ผ๊ณ ์ด๋ ๊ฒ ๋ฌถ์ธ ํจ๊ณผ๋ฅผ ์ธก์ ํด๋ณด์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ์์ฑ๋ ๋ชจ๋ธ RoBERTa์ Robustly optimized BERT approach๋ผ๊ณ ๋ถ๋ฅธ๋ค. RoBERTa๋ ๋ค์์ ์กฐ๊ฑด์ ๋ง์ถฐ์ ํ๋ จ๋์๋ค.
- dynamic masking $($3-1. ์์ ์ธ๊ธ$)$
- NSP loss ์๋ FULL-SENTENCES $($3-2. ์์ ์ธ๊ธ$)$
- ๊ฑฐ๋ํ mini-batches $($3-3. ์์ ์ธ๊ธ$)$
- ๊ฑฐ๋ํ byte-level BPE $($3-4. ์์ ์ธ๊ธ$)$
์ถ๊ฐ์ ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์ง๊ธ๊น์ง ๊ณผ์ํ๊ฐ ๋์๋ ๋ ๊ฐ์ ๋ค๋ฅธ ์ค์ํ ์์๋ค์ ๋ํด ์กฐ์ฌํ์๋ค. ์ฒซ ๋ฒ์งธ๋, pretraining์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ด๊ณ , ๋ ๋ฒ์งธ๋ ๋ฐ์ดํฐ๋ฅผ ํตํ training ํจ์ค์ ์ ์ด๋ค. ์๋ฅผ ๋ค์ด, XLNet architecture๋ BERT์ 10๋ฐฐ์ ๋ฌํ๋ ๋ฐ์ดํฐ๋ก pre-trained ๋์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ํ ์ ๋ฐ์ optimization ๋จ๊ณ์์ 8๋ฐฐ ๋ ํฐ batch size๋ก ํ์ต๋์, BERT์ ๋นํด 4๋ฐฐ ๋ ๋ง์ ์์ ์ํ์ค๋ฅผ pretraining์ ์ฌ์ฉํ๋ค.
๋ค๋ฅธ ๋ชจ๋ธ๋ง ์ ํ์์ ์ด๋ฌํ ์์์ ์ค์๋๋ฅผ ๋ถ๋ฆฌํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ BERT_LARGE architecture $($L=24, H=1024, A=16, 355M parameters$)$์ ๋ฐ๋ผ RoBERTa๋ฅผ ๊ต์กํ๋ ๊ฒ์ผ๋ก ์์ํ์๋ค. ๋ ผ๋ฌธ์์๋ BERT์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ๋น๊ฒฌํ๋ ๋ฐ์ดํฐ์ ์์์ 100K steps ์ ๋ pretrain์ ์งํํ์๋ค.
Results
์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ค์์ ํ 4์ ๋ํ๋ด์๋ค. ํ๋ จ ๋ฐ์ดํฐ์ ๋ํด ์ ์ด๋ฅผ ํ ๋, RoBERTa๊ฐ ๊ธฐ์กด์ BERT_LARGE์ ๊ฒฐ๊ณผ์ ๋ํด ๋ง์ด ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด๋ก์จ ๋์์ธ ์ ํ์ด ์ผ๋ง๋ ์ค์ํ ์ง ์ฌ์ฐจ ํ์ธํ ์ ์์๋ค.
๊ทธ ๋ค์์, ์ด ๋ฐ์ดํฐ๋ฅผ ์ธ ๊ฐ์ ์ถ๊ฐ์ ์ธ ๋ฐ์ดํฐ์ ์ combine ํ์๋ค. ๊ทธ๋ฆฌ๊ณ RoBERTa๋ฅผ ์ด combined๋ ๋ฐ์ดํฐ ์์์ ์ด์ ๊ณผ ๋๊ฐ์ training step$($100K$)$๋งํผ ํ์ต์์ผฐ๋ค. ์ข ํฉ์ ์ผ๋ก, 160GB์ ๋ฌํ๋ text ๋ฐ์ดํฐ ์์์ pretrain ๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ชจ๋ downstream task์ ๋ํด์ ์ฑ๋ฅ์ด ๊ฐ์ ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ด ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ค์์ฑ์ด pretraining์์ ์ผ๋ง๋ ์ค์ํ ์ง ์ ์ฆํ์๋ค.
๋ง์นจ๋ด, RoBERTa๋ฅผ ๋์ฑ ๊ธธ๊ณ ์ฆ๊ฐ๋ ์์ pretraining step์์ pretrain ํ์๋ค. $($100K -> 300K -> 500K$)$ ์ด๋ฅผ ํตํด downstream task์์ ๋์ฑ ํฅ์๋ ์ฑ๋ฅ์ ๋ณผ ์ ์์๊ณ , 300K์ 500K step ๋ชจ๋ธ์ ๋ชจ๋ task์ ๋ํด XLNet_LARGE๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ ๋ค๊ณ ํด์ ์ด ๋ชจ๋ธ๋ค์ด ์ค๋ฒํผํ ๋ ๊ฒ์ ์๋๊ณ , ์ถ๊ฐ์ ์ธ ํ์ต์ ํตํด ๋ ์ฅ์ ์ ์ด๋์ด๋ผ ์ ์์๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/1907.11692