The overview of this paper
์์ฐ์ด๋ฅผ pretrainingํ ๋ ์ฆ๊ฐ๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ downstream task์ ๋ํด ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, GPU ๋๋ TPU ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ๊ฐ๋ก๋งํ training time์ ์ ํ์ด ์๊ธฐ๊ฒ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ parameter reduction ๊ธฐ์ ์ ์๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด์ BERT์์ ์ ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ผ๋ก ๋ ํฅ์๋ ์๋์ training์ ๋ณด์ฌ์คฌ๋ค. ์ข ํฉ์ ์ธ ์คํ์ ์ฆ๊ฑฐ๋ค์ ์ ์๋ ๋ฐฉ๋ฒ์ด ๊ธฐ์กด์ BERT๋ณด๋ค ๋์ฑ ์ scaleํจ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ํ inter-sentence์ ์ผ๊ด์ฑ์ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์ง์คํ๋ self-supervised loss๋ฅผ ์ฌ์ฉํ๊ณ , ์ด๊ฒ์ด ๋ค์ค sentence ์ ๋ ฅ๊ณผ ํจ๊ป ํ๋ downstream task์ ๋์์ ์ฃผ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์์ SoTA๋ฅผ ์ฐจ์งํ ์ ์์๋ค.
Table of Contents
1. Introduction
2. The elements of ALBERT
2-1. Model architecture choices
2-2. Model setup
3. Discussion
1. Introduction
full network pre-training์ language representation learning์์ ์๋ง์ ๋ฐ์ ์ ์ด๋ฃจ์ด ์๋ค. ์๋ง์ NLP task์ ๋ํด ์ ํ๋ ํ๋ จ ๋ฐ์ดํฐ๋ก, ๊ฐ ๋ฐฉ๋ฒ๋ง์ pre-trained ๋ฐฉ๋ฒ์ผ๋ก ์ต๋์ ์ด์ต์ ๋์ด๋๋ค. ์ด๋ฌํ ๋ฐ์ ์ ๋ํ ๊ฐ๋ ฅํ ์ ํธ ์ค์ ํ๋๋ ์ค๊ตญ์ ์ค๊ณ ๋ฑํ๊ต ์์ด ์ํ์ธ RACE ์ํ์ ์ํด ๊ณ ์๋ ๋ ํด ๊ณผ์ ์ ๋ํ ๊ธฐ๊ณ ์ฑ๋ฅ์ ์งํ์ด๋ค. ์ด RACE ๋ฐ์ดํฐ์ ์ ๋ํด ์ฒ์์ผ๋ก ์ฌ์ฉํ ๋ ผ๋ฌธ์์๋ machine accuracy๊ฐ 44.1% ์ ๋์๋๋ฐ, ์ด ๋ ผ๋ฌธ์์๋ ์ด ์ฑ๋ฅ์ 45.3% ๋์ด์ฌ๋ฆฐ 89.4%๋ฅผ ๊ธฐ๋กํ์๋ค.
์ด๋ฌํ ๋ฐ์ ์ ๋ํ ์ฆ๊ฑฐ๋ ๊ฑฐ๋ํ network๊ฐ SoTA๋ฅผ ์ฐจ์งํ๋๋ฐ ๋งค์ฐ ์ค์ํ๋ค๊ณ ๋ฐํ๋ค. model์ pre-train ํ๋ ๊ฒ๊ณผ ์ด๋ฅผ ์์ ํ๋์ ๋ชจ๋ธ๋ก ๋๋๋ ๊ฒ์ด ์ด์ ๋ ํ๋ฒํ ๋ฐฉ๋ฒ์ด ๋์๋ค. model์ ํฌ๊ธฐ์ ์ค์์ฑ์ ๋ํด ์ฃผ์ด์ง๋ค๋ฉด, ์ฌ๋๋ค์ ๋ค์๊ณผ ๊ฐ์ด ์ง๋ฌธํ ๊ฒ์ด๋ค. '๋ ๋์ NLP๋ชจ๋ธ์ ๊ฐ๋ ๊ฒ์ด ๋ ํฐ ๋ชจ๋ธ์ ๊ฐ๋ ๋งํผ ์ฌ์ด๊ฐ์?'
์ด ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ์ํ ์ฅ์ ๋ฌผ์ ํ๋์จ์ด์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฉ๋ชจ์ ์ ์ฝ์ด๋ค. ํ์ฌ์ SoTA๋ฅผ ๋ฌ์ฑํ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ๋ช๋ฐฑ, ๋ช๋ฐฑ๋ง, ๋๋ ๋ช์ญ์ต ๊ฐ์ parameters๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ค๊ณ ํ ๋, ์ด์ ๊ฐ์ ์ ์ฝ์ ๋ง๋๊ธฐ ์ฝ๋ค. communication overhead๊ฐ ๋ชจ๋ธ์ parameters์ ์ ๋น๋กํ๊ธฐ ๋๋ฌธ์ ๋ถ์ฐ ๊ต์ก์์๋ ๊ต์ก ์๋๊ฐ ํฌ๊ฒ ์ ํ๋ ์ ์๋ค.
์์ ์ค๋ช ํ ๋ฌธ์ ์ ๋ํ ์๋ฃจ์ ์๋ ๋ชจ๋ธ ๋ณ๋ ฌํ์ ํ๋ช ํ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ๊ฐ ์๋ค. ์ด๋ฌํ ์๋ฃจ์ ๋ค์ ๋ฉ๋ชจ๋ฆฌ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง๋ง, communication overhead์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง๋ ๋ชปํ๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์์ ์ธ๊ธํ ๋ชจ๋ ๋ฌธ์ ์ ๋ค์ A Lite BERT ์ฆ, ALBERT architecture์ ๋์์ธํจ์ผ๋ก์จ ํด๊ฒฐํ์๋ค. ์ด ALBERT๋ ๊ธฐ์กด์ BERT architecture ๋ณด๋ค ๋ ์ ์ parameters๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
ALBERT๋ pre-trained model์ scalingํ๋๋ฐ์ ์์ด ์ฃผ์ ์ฅ์ ๋ฌผ์ ์ ๊ฑฐํ๋ ๋ ๊ฐ์ง parameter reduction ๊ธฐ์ ์ ํตํฉํ๋ค. ์ฒซ ๋ฒ์งธ๋ factorized embedding parameterization์ด๋ค. ๊ฑฐ๋ํ ์ดํ ์๋ฒ ๋ฉ ํ๋ ฌ์ ๋ ๊ฐ์ ์์ ํ๋ ฌ๋ก ๋ถํดํจ์ผ๋ก์จ, ์ดํ ์๋ฒ ๋ฉ์ ํฌ๊ธฐ๋ก๋ถํฐ hidden layer์ ํฌ๊ธฐ๋ฅผ ๋ถ๋ฆฌํ๋ค. ์ด๋ฌํ ๋ถ๋ฆฌ๋ ์ดํ ์๋ฒ ๋ฉ์ parameter ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ์ง ์๊ณ , hidden size๋ฅผ ์์ฝ๊ฒ ๋๋ฆด ์ ์๊ฒ ๋ง๋ค์ด์ค๋ค. ๋ ๋ฒ์งธ๋ cross-layer parameter sharing์ด๋ค. ์ด ๊ธฐ์ ์ parameter๊ฐ network์ ๊น์ด์ ๋ฐ๋ผ ์ปค์ง๋ ๊ฒ์ ๋ฐฉ์งํ๋ค. ์ด ๋ ๊ธฐ์ ์ ์ฑ๋ฅ์ ํผํด๋ฅผ ์ฃผ์ง ์๊ณ , BERT์ ๋ํ parameter์ ์๋ฅผ ์๋นํ ์ค์ฌ์ค์, parameter-efficiency๋ฅผ ํฅ์์์ผ์ค๋ค. ALBERT์ ํํ๋ BERT_LARGE์ ๋น์ทํ์ง๋ง, 18๋ฐฐ ์ ๋ ์ ์ parameter์ ๊ฐ์ง๊ณ , 1.7๋ฐฐ ๊ฐ๋ ๋ ๋นจ๋ฆฌ ํ๋ จ๋๋ค. ์ด๋ฌํ parameter reduction ๊ธฐ์ ์ ๋ํ ํ๋ จ์ ์์ ํ์ํค๊ณ ์ผ๋ฐํ๋ฅผ ๋์์ฃผ๋ ์ ๊ทํ ํฅํ๋ก ์๋ํ๋ค.
ALBERT์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด, sentence-order prediction$($SOP$)$์ ์ํ self-supervised loss๋ฅผ ์งํํ์๋ค. SOP๋ ์ฃผ๋ก inter-sentence์ coherence์ ์ง์คํ๊ณ ๊ธฐ์กด์ BERT์์ ์ ์๋ NSP loss์ ๋ฌด๋ ฅํจ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋์์ธ ๋์๋ค.
์ด๋ฌํ ๋์์ธ์ ์ ํํ ๊ฒฐ๊ณผ, BERT_LARGE๋ณด๋ค parameter์ ์์ ์ ์ง๋ง ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์๋งํผ ALBERT๋ฅผ ํฌ๊ฒ ๋ง๋ค ์๋ ์๋ค. ์ด๋ฅผ ํตํด ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํด SoTA๋ฅผ ๋ฌ์ฑํ์๋ค.
2. The elements of ALBERT
์ด ์น์ ์์๋, ALBERT์ ๋ํ ๋์์ธ ๊ฒฐ์ ๊ณผ ๊ธฐ์กด์ BERT architecture์ ํํ์ ๋ํ ์ ๋ํ๋ ๋น๊ต๋ฅผ ์ ๊ณตํ๋ค.
2-1. Model architecture choices
ALBERT์ ํ ๋๋ GELU nonlinearity์ ํจ๊ป Transformer encoder์ ์ฌ์ฉํ๋ BERT์ ์ ์ฌํ๋ค. ๋ ผ๋ฌธ์์๋ BERT์ ํ๊ธฐ๋ฒ์ ๋ฐ๋ผํ๊ณ , ์ดํ ์๋ฒ ๋ฉ์ ํฌ๊ธฐ๋ E๋ก ์ง์นญํ์๊ณ , encoder layer์ ์๋ L, hidden size๋ H๋ก ์ง์นญํ์๋ค. BERT์ ๋ง์ฐฌ๊ฐ์ง๋ก, feed-forward/filter size๋ฅผ 4H๋ก ์ง์ ํ๊ณ , attention head์ ์๋ H/64๋ก ์ง์ ํ์๋ค.
ALBERT๊ฐ BERT์ ๋์์ธ ์ ํ์ ๊ณ ์น ๊ฒ์ ๋ํ ์ธ ๊ฐ์ง contribution์ ๋ค์๊ณผ ๊ฐ๋ค.
Factorized embedding parameterization
BERT ๋ฟ๋ง ์๋๋ผ subsequent modeling ํฅ์์ ํ๋ XLNet, RoBERTa์์๋, WordPiece ์๋ฒ ๋ฉ ํฌ๊ธฐ E๋ ํ๋ ๋ ์ด์ด์ ํฌ๊ธฐ์ธ H์ ๋์ ์ด๋ค. i.e. $E\equiv H$. ์ด ๊ฒฐ์ ์ ๋ค์๊ณผ ๊ฐ์ด ๋ชจ๋ธ๋ง๊ณผ ์ค์ ์ ์ธ ์ด์ ๋ก ์ฐจ์ ์ฑ ์ผ๋ก ๋ณด์ธ๋ค.
๋ชจ๋ธ๋ง ๊ด์ ์ผ๋ก๋, WordPiece ์๋ฒ ๋ฉ์ ๋ฌธ๋งฅ ๋ ๋ฆฝ์ representation์ ํ์ตํ๊ธฐ ์ํ ๋ฐ๋ฉด, hidden layer ์๋ฒ ๋ฉ์ ๋ฌธ๋งฅ ์ข ์์ ์ธ representation์ ํ์ตํ๊ธฐ ์ํ ๊ฒ์ด๋ค. ๋ฌธ๋งฅ ๊ธธ์ด์ ๊ดํ ์คํ์์ BERT์ ์ ์ฌํ representation์ ํ์ ๋ฌธ๋งฅ์ ์ฌ์ฉํ์ฌ ์ด๋ฌํ ๋ฌธ๋งฅ ์ข ์์ representation์ ํ์ตํ๊ธฐ ์ํ ์ ํธ๋ฅผ ์ ๊ณตํ๋ ๋ฐ์์ ๋น๋กฏ๋จ์ ๋ํ๋ธ๋ค. hidden layer size H์์ WordPiece ์๋ฒ ๋ฉ ํฌ๊ธฐ E๋ฅผ ํ์ด๋ด๋ ๊ฒ์ ์ด ๋ชจ๋ธ parameters์ ์ฌ์ฉ์ ๋ชจ๋ธ๋ง์ ์๊ตฌ์ ๋ฐ๋ผ ๋์ฑ ํจ๊ณผ์ ์ผ๋ก ๋ง๋ค์ด์ค๋ค. ์ด๊ฒ์ $H\gg E$๋ฅผ ์ง์นญํ๋ค.
์ค์ฉ์ ์ธ ์ธก๋ฉด์์, NLP๋ ๋ณดํต ์ดํ ํฌ๊ธฐ V๋ฅผ ํฌ๊ฒ ์๊ตฌํ๋ค. ๋ง์ฝ $E\equiv H$์ด๋ฉด, H๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ํฌ๊ธฐ $V\times E$๋ฅผ ๊ฐ์ง๋ ์๋ฒ ๋ฉ ํ๋ ฌ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฐ๋ค. ์ด๊ฒ์ ๋ช์ญ์ต๊ฐ์ parameter๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ ๋ง๋ค์ด ๋ผ ์ ์๋ค. ์ด parameter ์ค์ ๋๊ฒ๋ ํ๋ จ ์ค์ ๋๋ฌธ๋๋ฌธ ์ ๋ฐ์ดํธ๋๋ค.
๊ทธ๋์, ALBERT๋ฅผ ์ํด ์๋ฒ ๋ฉ parameter์ ๋ ๊ฐ์ ์์ ํ๋ ฌ๋ก ๋ถํดํ๋ factorization์ ์ฌ์ฉํ์๋ค. one-hot vector์ ๋ฐ๋ก hidden space size H์ ๊ณฑํ๋ ๊ฒ ๋์ ์, ์ฒ์์ ๋ฎ์ ์ฐจ์์ embedding space ํฌ๊ธฐ์ธ E์ ๊ณฑํ๊ณ , hidden space์ ๊ณฑํ์๋ค. ์ด๋ฌํ ๋ถํด๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ, embedding parameters๋ฅผ $O(V\times H)$์์ $O(V\times E+E\times H)$๋ก ์ถ์์์ผฐ๋ค. ์ด๋ฌํ parameter reduction์ $H\gg E$์ผ ๋ ๋งค์ฐ ์ค์ํ๋ค. ๋ชจ๋ word piece์ ๋ํด ๋์ผํ E๋ฅผ ์ฌ์ฉํ๊ธฐ๋ก ํ ์ด์ ๋ ๋จ์ด๋ง๋ค embedding size๋ฅผ ๋ค๋ฅด๊ฒ ์ง์ ํ๋ ๊ฒ์ด ์ค์ํ ์ ์ฒด ๋จ์ด ํฌํจ์ ๋นํด ๋ฌธ์ ์ ์ฒด์ ํจ์ฌ ๋ ๊ณ ๋ฅด๊ฒ ๋ถํฌ๋๊ธฐ ๋๋ฌธ์ด๋ค.
Cross-layer parameter sharing
ALBERT๋ฅผ ์ํด, parameter efficiency๋ฅผ ํฅ์์ํค๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก cross-layer parameter sharing์ ์ ์ํ์๋ค. parameter์ ๊ณต์ ํ๋๋ฐ ์๋ ๋ค์ํ ๋ฐฉ๋ฒ์ด ์๋๋ฐ, ์๋ฅผ ๋ค์ด ๋ ์ด์ด ๊ฐ์ ์ค์ง feed-forward network$($FFN$)$ parameter๋ง์ ๊ณต์ ํ ๊ฒ์ธ๊ฐ ๋๋, attention parameter๋ง์ ๊ณต์ ํ ๊ฒ์ธ๊ฐ ๋ฑ์ด ์๋ค. ALBERT์ ๊ธฐ๋ณธ๊ฐ์ ๋ชจ๋ parameter์ ๊ณต์ ํ๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์ ์งํ๋ ์คํ์์๋ ์ด ๊ธฐ๋ณธ๊ฐ์ ์ด์ฉํ์ฌ ์งํ๋์๋ค.
์ด์ ๋น์ทํ ์ ๋ต๋ค์ด Universial Transformer$($UT$)$์ Deep Equilibrium Models$($DQE$)$์์ ์ด๋ฏธ ์งํ๋์๋ค. ์ด ๋ ผ๋ฌธ๊ด์ ๋ค๋ฅธ ์ ์ UT๋ vanilla Transformer์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ DQE๋ ํน์ ๋ ์ด์ด์ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์๋ฒ ๋ฉ์ด ๋์ผํ๊ฒ ์ ์ง๋๋ ํํ์ ์ ๋๋ฌํ๊ฒ ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ ๋ํ L2 distance ์ธก์ ๊ณผ cosine similarity๋ ์ด ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ด ํ ์ ์ ๋ชจ์์ง๊ธฐ ๋ณด๋ค๋ ์ง๋ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
์์ ๊ทธ๋ฆผ 1์ BERT_LARGE์ ALBERT_LARGE๋ฅผ ์ฌ์ฉํด์ ๊ฐ ๋ ์ด์ด์ ๋ํ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์๋ฒ ๋ฉ์ L2 distance์ cosine similarity์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ดํด๋ณด๋ฉด, ๋ ์ด์ด์ ๋ ์ด์ด ๊ฐ์ ๋ณ๋์ ALBERT๊ฐ BERT๋ณด๋ค ๋์ฑ ์ค๋ฌด์คํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๊ฐ์ค์น ๊ณต์ ๊ฐ network parameters๋ฅผ ์์ ์ํค๋๋ฐ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋น๋ก ๋ ํ๋ ฌ ๋ชจ๋ BERT์ ๋น๊ตํ์ ๋ ๊ฐ์ํ๊ธฐ๋ ํ์ง๋ง, ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ 24๊ฐ์ ๋ ์ด์ด๋ฅผ ์ง๋๊ณ ๋ 0์ ์๋ ดํ์ง๋ ์์๋ค. ์ด๊ฒ์ ALBERT์ parameter์ ๋ํ solution space๊ฐ DQE์์ ๋ฐ๊ฒฌ๋๋ ๊ฒ๊ณผ๋ ๋งค์ฐ ๋ค๋ฅด๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Inter-sentence coherence loss
์ถ๊ฐ์ ์ผ๋ก, masked language modeling$($MLM$)$ loss๋ฅผ ์ํด BERT๋ next-sentence prediction$($NSP$)$๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ถ๊ฐ์ ์ธ loss๋ฅผ ์ฌ์ฉํ์๋ค. NSP๋ ์์ธก์ ์ํ binary classification loss๋ก ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฅ๋ฅผ ํ๋ค. positive example์ ํ๋ จ corpus์์ ์ด์ด์ง๋ segment๋ฅผ ๊ฐ์ง๊ณ ์์ ์์ฑ๋๊ณ , negative example์ ์๋ก ๋ค๋ฅธ ๋ฌธ์์์ ๊ฐ์ ธ์จ segment ์ง์ผ๋ก ์์ฑ๋๋ค. ์ฌ๊ธฐ์ positive์ negative๋ ๋๊ฐ์ ๋น์จ๋ก ์์ฑ๋๋ค. ์ด๋ฌํ NSP๋ sentence pair ๊ฐ์ ๊ด๊ณ์ ๋ํ ์ด์ ๋ฅผ ์๊ตฌํ๋ natural language inference๊ฐ์ downstream task์ ๋ํด ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋์์ธ๋์๋ค. ํ์ง๋ง, ํ์ ์ฐ๊ตฌ๋ค์ ํตํด์ NSP์ ์ํฅ์ ์ ๋ขฐํ ์ ์๊ณ ๊ทธ๋์ ์ ๊ฑฐํ๊ธฐ๋ก ๊ฒฐ์ ๋์๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฌํ NSP์ ๋ฌด๋ฅํจ์ ๋ํ ์ฃผ ์์ธ์ด MLM๊ณผ ๊ฐ์ task๋งํผ ์ด๋ ต์ง ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ๋ค. ๊ณ ์๋ ๊ฒ์ฒ๋ผ, NSP๋ topic prediction๊ณผ coherence prediction์ด ํ๋์ task๋ก ์ตํฉ๋์๋ค. ํ์ง๋ง, topic prediction์ copherence prediction์ ๋นํด ๋๋ฌด ์ฝ๊ณ , ๋ํ MLM loss๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํ ๊ฒ๊ณผ ๋ ๋ง์ด ๊ฒน์ณ์ง๋ค.
๋ ผ๋ฌธ์์๋ inter-sentence modeling์ด language understanding์์ ๋งค์ฐ ์ค์ํ ์ธก๋ฉด์ด๋ผ๊ณ ์ฃผ์ฅํ์ง๋ง, ์ฃผ๋ก coherence๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ loss๋ฅผ ์ ์ํ๋ค. ๊ทธ ๋ฐฉ๋ฒ์ ๋ฐ๋ก, ALBERT๋ฅผ ์ํด ์ฌ์ฉ๋ sentence-order prediction$($SOP$)$ loss์ด๋ค. SOP loss๋ topic prediction์ ํผํ๋ ๋์ ์, inter-sentence coherence๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์ง์คํ์๋ค. SOP loss์ positive example์ BERT์์ ์ฌ์ฉ๋๋ ๊ฒ์ฒ๋ผ ์ฌ์ฉ๋๊ณ , negative example์ ๋๊ฐ์ด ์ด์ด์ง๋ ๋ ๊ฐ์ segment์ด์ง๋ง, ์ด๋ค์ ์์๊ฐ ๋ค์งํ์๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ด discourse-level coherence ์์ฑ์ ๋ํ ๋ณด๋ค ์ธ๋ถํ๋ ๊ตฌ๋ณ์ ๋ฐฐ์ฐ๋๋ก ํ๋ค. NSP๋ SOP์ ๋ชจ๋ ์ผ์ ํด๊ฒฐํ ์๋ ์์ง๋ง, SOP๋ NSP์ task๋ฅผ ์ด๋ ์ ๋ ํด๊ฒฐ ๊ฐ๋ฅํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ALBERT ๋ชจ๋ธ์ multi-sentence encoding task์ ๋ํ downstream task์ ์ฑ๋ฅ์ ์ผ๊ด์ ์ด๊ฒ ํฅ์์์ผฐ๋ค.
2-2. Model setup
BERT์ ALBERT ๋ชจ๋ธ ๊ฐ์ ์ฐจ์ด์ ์ ๋น๊ต ๊ฐ๋ฅํ hyperparemeter ์ธํ ๊ณผ ํจ๊ป ํ 1์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์์์ ์ธ๊ธํ ๋์์ธ ์ ํ ๋๋ฌธ์, ALBERT ๋ชจ๋ธ์ BERT ๋ชจ๋ธ์ ์์ํ๋ parameter size์ ๋นํด ๋ ์๋ค.
์๋ฅผ ๋ค์ด, ALBERT_LARGE๋ BERT_LARGE์ ๋นํด 18๋ฐฐ ๊ฐ๋ ๋ ์ ์ parameter์ ๊ฐ์ง๋ค. ALBERT_XLARGE์ ํํ๋ H=2048์ด๊ณ , ์ค์ง 60,000,000๊ฐ์ parameter์ ๊ฐ์ง๊ณ ALBERT_XXLARGE์ ํํ๋ H=4096์ด๊ณ , 233,000,000๊ฐ์ parameter์ ๊ฐ์ง๋ค. ์ด๋ BERT_LARGE์ 70%์ ๋ ๋ฐ์ ์ ๋๋ค.
3. Discussion
ALBERT_XXLARGE๋ BERT_LARGE์ ๋นํด ์ ์ parameter์ ๊ฐ์ง๊ณ , ๋ ์ข์ ์ฑ๋ฅ์ ๋ด์ง๋ง, ๋ ํฐ ๊ตฌ์กฐ๋ก ์ธํด์ ๋ ๋ง์ ๊ณ์ฐ ๋น์ฉ์ด ๋ ๋ค. ๋ค์ ์ค์ํ step์ ํ๋ จ์ ์๋์ ALBERT์ ์ถ๋ก ์๋๋ฅผ sparse attention๊ณผ block attention๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ํตํด ๋์ฌ์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ์ฐ๊ตฌ์ orthogonal line๋ ์ถ๊ฐ์ ์ธ representation power์ ์ ๊ณตํ๋๋ฐ, ์ด๋ ค์ด example mining๊ณผ ๋์ฑ ํจ๊ณผ์ ์ธ language modeling training์ ํฌํจํ๋ค. ๋ํ SOP๊ฐ ๋ ๋์ language representation์ผ๋ก ์ด์ด์ง๋ ๋ณด๋ค ์ผ๊ด๋๊ฒ ์ ์ฉํ ํ์ต ์์ ์ด๋ผ๋ ์ค๋๋ ฅ ์๋ ์ฆ๊ฑฐ๊ฐ ์์ง๋ง ํ์ฌ self-supervised learning loss์ ์ํด ์์ง ์บก์ฒ๋์ง ์์ ์ฐจ์์ด ๋ ๋ง์ ์ ์์ผ๋ฉฐ ์ถ๊ฐ representation์ ์์ฑํ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/1909.11942