The overview of this paper
BERT์์๋ token์ [MASK]๋ก ๋ฐ๊พธ๋ฉด์ ์ ๋ ฅ์ ์์์ ์ฃผ๊ณ , ์ด๋ ๊ฒ ๋์ฒด๋ ํ ํฐ์ ๊ธฐ์กด์ ํ ํฐ์ผ๋ก ์ฌ๊ตฌ์กฐํ๋ Masked language modeling$($MLM$)$ pre-training ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ dowastream NLP task์ ์งํํ ๋, ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง, ํจ๊ณผ์ ์ผ๋ก ์งํํ๊ธฐ ์ํด์๋ ๊ฑฐ๋ํ ์์ ์ปดํจํ ์ด ์ํ๋์ด์ผ ํ๋ค. ์ด์ ๋ํ ๋์์ผ๋ก, ๋ ผ๋ฌธ์์๋ replaced token prediction์ด๋ผ๋ sample-efficient ํ pre-training task๋ฅผ ์ ์ํ์๋ค. ๊ทธ๋ค์์, ๋ชจ๋ธ์ด ์์๋ ํ ํฐ์ ๊ธฐ์กด ์ ์ฒด์ฑ์ ์์ธกํ๊ฒ ํ์ต์ํค๋ ๊ฒ ๋์ ์, ์์๋ ์ ๋ ฅ์ ๊ฐ ํ ํฐ์ด generator sample๋ก ๋์ฒด๋์๋์ง ์ฌ๋ถ๋ฅผ ์์ธกํ๋ discriminative model์ ํ๋ จํ๋ค. ์คํ์ ํ ํด ์ด๋ฌํ ์๋ก์ด pre-training task๊ฐ MLM๋ณด๋ค ํจ๊ณผ์ ์ด๋ผ๊ณ ์ค๋ช ํ๋ค. ์๋ํ๋ฉด task๊ฐ masking ๋ ์์ subset์ ๋ํด ์ ์๋๊ธฐ๋ณด๋ค๋ ๋ชจ๋ ์ ๋ ฅ ํ ํฐ์ ๋ํด์ ์ ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ด ๋ ผ๋ฌธ์์ ์๊ฐํ๋ ๋ฐฉ๋ฒ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ๋๊ฐ์ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฐ์ดํฐ, ์ปดํจํ ์ ๊ฐ๋ BERT์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ ๊ฒ์ ์ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์ ์๊ฐ๋ ๋ฐฉ๋ฒ์ scale์ ๋ํด ๋ํ ์ ์๋ํ์๋ค.
The Table of Contents
1. Introduction
2. Method
3. Efficiency analysis
4. Conclusion
1. Introduction
ํ์ฌ์ SoTA representation learning ๋ชจ๋ธ๋ค์ ๋ณด๋ฉด ๋ชจ๋ autoencoder์ denoising ํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๊ณ ์๋ค. ์ด ๋ฐฉ๋ฒ๋ค์ ๋ผ๋ฒจ๋ง์ด ๋์ง ์์ ์ ๋ ฅ ์ํ์ค์ ์กฐ๊ทธ๋ง subset์ ์ ํํ๊ณ , ์ด๋ฌํ ํ ํฐ๋ค์ ๋ํด masking์ ํ๊ฑฐ๋ attention์ ํ ๋ค์, network๋ฅผ ํ์ต์์ผ์ ๊ธฐ์กด์ ์ ๋ ฅ์ ๋์ฐพ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ ํต์ ์ธ language-model pre-training๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋๋ฐ ์๋ํ๋ฉด representation์ ์๋ฐฉํฅ์ผ๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ masked language modeling$($MLM$)$์ ์๋นํ ์์ ์ปดํจํ ๋น์ฉ์ ์ด๋ํ๋๋ฐ, ์๋ํ๋ฉด network๋ ๊ฐ ์์์ ๋ํด 15% ์ ๋์ ํ ํฐ๋ง ํ์ตํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด์ ๋ํ ๋์์ผ๋ก, ๋ ผ๋ฌธ์์๋ replaced token prediction์ ์๊ฐํ์๋ค. ์ด ๋ฐฉ๋ฒ์ pre-training task๋ก, ๊ทธ๋ด๋ฏํ token์ด์ง๋ง ์์ฑ๋ replacement์ผ๋ก๋ถํฐ ์ค์ token์ ๊ตฌ๋ถํ๋ ๊ณผ์ ์ ํตํด ํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ masking์ ํ๋ ๋์ ์, ์์ masked language model์ ์ถ๋ ฅ์ธ ์ ์ ๋ถํฌ๋ก๋ถํฐ sampling ๋ token๋ค๊ณผ ํจ๊ป ์ ๋ ฅ์ ์์์ํจ๋ค. ์ด๋ฌํ ์์ preocedure์ BERT์์ ๋ฐ์ํ๋ ํ๋ จ ์ค์๋ [MASK] ํ ํฐ์ ๋ณด์ง๋ง, fine-tuning ์ค์๋ ์ด ํ ํฐ์ ๋ณด์ง ๋ชปํ๋ ๋ถ์กฐํ๋ฅผ ํด๊ฒฐํ๋ค. ๊ทธ๋ค์์, ๋ชจ๋ ํ ํฐ์ ๋ํด ์ด ํ ํฐ์ด original์ธ์ง ์๋๋ฉด replacement์ธ์ง ๊ตฌ๋ณํ๋ discriminator์ฒ๋ผ network๋ฅผ ํ์ต์ํจ๋ค. ์ด์๋ ๋ฐ๋๋ก, MLM์ ์์๋ ํ ํฐ์ ๋ํด ๊ธฐ์กด ์ ์ฒด์ฑ์ ์์ธกํ๋ ์์ฑ์์ ์ ์ฅ์ผ๋ก network๋ฅผ ํ์ต์ํจ๋ค. ๋ ผ๋ฌธ์์ ์๊ฐํ๋ ๋ฐฉ๋ฒ์ ์ฅ์ ์ small subset์์๋ง ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ, ๋ชจ๋ ํ ํฐ๋ค๋ก๋ถํฐ ํ์ต๋๋ฏ๋ก, ์ปดํจํ ๋น์ฉ์ด ํจ๊ณผ์ ์ด๋ผ๋ ์ ์ด๋ค. ๋น๋ก ๋ ผ๋ฌธ์์ ์๊ฐํ๋ ๋ฐฉ๋ฒ์ด GAN์ discriminator์ ํ์ต์ํค๋ ๊ฒ์ ์ฐ์์ํค์ง๋ง, ๋ ผ๋ฌธ์์ ์๊ฐํ๋ ๋ฐฉ๋ฒ์ ํ ์คํธ์ GAN์ ์ ์ฉํ๋ ๊ฒ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์์๋ ํ ํฐ์ ์์ฑํ๋ generator๊ฐ ์ต๋ likelihood๋ก ํ๋ จ๋๋ค๋ ์ ์์ ์ ๋์ ์ด์ง ์๋ค.
์ด๋ฌํ ์ ๊ทผ ๋ฐฉ๋ฒ์ "Efficiently Learning an Encoder that Classifies Token Replacements Accurately"์ ์ค์ฌ์ ELECTRA๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด์ ์ ์์ ๋ค์ฒ๋ผ ๋ ผ๋ฌธ์์๋ Transformer text encoder์ pre-train ํ ๋ค์, downstream task์ ๋ํด finetune ํ๊ฒ ๋ง๋ค์๋ค. ablation study๋ฅผ ํตํด ELECTRA๊ฐ ๋ชจ๋ ์ ๋ ฅ ํ ํฐ์ ๋ํด ํ์ต์ ์งํํ๋ฏ๋ก, BERT๋ณด๋ค ๋ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์ค๋ค๋ ์ฌ์ค์ด ๋ฐํ์ก๋ค. ๊ทธ๋ฆฌ๊ณ ELECTRA๊ฐ ์์ ํ ํ์ต๋์์ ๋, ๋ ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค๋ ์ฌ์ค์ ์๊ฒ ๋์๋ค.
ํ์ฌ ๋๋ค์์ pre-training method๋ค์ ํจ๊ณผ์ ์ด๊ธฐ ์ํด ๊ฑฐ๋ํ ์์ ์ปดํจํ ์ ์๊ตฌํ๋๋ฐ, ์ด๋ ์ด๋ค์ ๋น์ฉ๊ณผ ๊ฐ์ฉ์ฑ์ ๋ํ ๊ฑฑ์ ์ ์ ๊ธฐํ๋ค. ๋ ๋ง์ ์ปดํจํ ์ ์ฌ์ฉํ ์ฌ์ ๊ต์ก์ ๊ฑฐ์ ํญ์ ๋ ๋์ downstream ์ ํ๋๋ก ์ด์ด์ง๊ธฐ ๋๋ฌธ์ pre-training ๋ฐฉ๋ฒ์ ๋ํ ์ค์ํ ๊ณ ๋ ค ์ฌํญ์ ์ ๋ downstream ์ฑ๋ฅ๋ฟ๋ง ์๋๋ผ ์ปดํจํ ํจ์จ์ฑ์ด์ด์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ด ๊ด์ ์์, ๋ ผ๋ฌธ์์๋ ๋ค์ํ ํฌ๊ธฐ์ ELECTRA ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ์ด๋ค์ ์ปดํจํ ์๊ตฌ์ downstream task์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๋ํด ELECTRA์ ์ ์ฉํด๋ณธ ๊ฒฐ๊ณผ, ๋๊ฐ์ ํฌ๊ธฐ์ BERT์ XLNet ๊ฐ์ MLM ๊ธฐ๋ฐ์ method๋ค๋ณด๋ค ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค. ์ด ๊ฒฐ๊ณผ๋ ๋ค์์ ๊ทธ๋ฆผ 1์ ๋ณด๋ฉด ํ์ธํ ์ ์๋ค. ์ข ํฉํ๋ฉด, ๋ ผ๋ฌธ์์์ ๊ฒฐ๊ณผ๋ challenging negative example๋ก๋ถํฐ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ณํ๋ discriminative task๊ฐ language representation ํ์ต์ ์ํ ๊ธฐ์กด์ ์์ฑ์ ์ ๊ทผ ๋ฐฉ์๋ณด๋ค ๋ ๊ณ์ฐ ํจ์จ์ ์ด๊ณ parameter ํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ๋ํ๋ธ๋ค.
2. Method
๋ค์์ ๊ทธ๋ฆผ 2์ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ replaced token detection pre-training task์ ๋ํ ๊ฐ์๊ฐ ์ค๋ช ๋์ด ์๋ค. ์ฌ๊ธฐ์ generator๋ ์ด๋ ํ ๋ชจ๋ธ์ด๋ ๋ค ๋ ์ ์์ง๋ง, ๋ ผ๋ฌธ์์๋ discriminator์ ํจ๊ป ํ๋ จ๋๋ small masked language model์ ์ฌ์ฉํ์๋ค. ๋น๋ก ๋ชจ๋ธ์ด GAN๊ณผ ์ ์ฌํ๊ฒ ๊ตฌ์กฐ๋์ด์๊ธด ํ์ง๋ง, GAN์ text์ ์ ์ฉํ๋ ๋ฐ์๋ ์ด๋ ค์์ด ์๊ธฐ ๋๋ฌธ์ ์ ๋์ ์ผ๋ก ํ์ต์ํค๊ธฐ๋ณด๋ค๋ maximum likelihood๋ก ํ์ต์์ผฐ๋ค. pre-training ํ์๋ generator๋ ์น์๋ฒ๋ฆฌ๊ณ , ์ค์ง downstream task์ ๋ํด discriminator๋ง fine-tuning ํ์๋ค.
๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ generator G์ discriminator D ๋ ๊ฐ์ ์ ๊ฒฝ๋ง์ ํ์ต์ํจ๋ค. ๊ฐ๊ฐ์ ์ฃผ๋ก ์ ๋ ฅ ํ ํฐ $\mathbf{x} = [x_{1}, x_{2},...,x_{n}]$์ ๋ฌธ๋งฅ์ ๋ฒกํฐ representation์ธ $h(\mathbf{x})=[h_{1},...,h_{n}]$์ผ๋ก ๋งคํํ๋ Transformer network์ encoder๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. position t๊ฐ ์ฃผ์ด์ง๋ฉด, $(x_{t} = [MASK])$ generator๋ softmax ๋ ์ด์ด๋ก ํน์ ํ ํฐ $x_{t}$๋ฅผ ์์ฑํ ํ๋ฅ ์ ์ถ๋ ฅํ๋ค.
์ฌ๊ธฐ์ $e$๋ token embedding์ ๊ฐ๋ฆฌํจ๋ค. position t๊ฐ ์ฃผ์ด์ง๋ฉด, discriminator๋ sigmoid ์ถ๋ ฅ ๋ ์ด์ด์ ํจ๊ป token $x_{t}$๋ฅผ 'real'๋ก ์์ธกํ๋ค. 'real'์ด๋ผ๋ ์๋ฏธ๋ generator๋ก ์์ฑ๋ ๋ถํฌ๋ณด๋ค๋ ๋ฐ์ดํฐ์์ ์จ token์ด๋ผ๋ ์๋ฏธ์ด๋ค.
generator๋ masked language modeling$($MLM$)$์ ์ํํ๊ธฐ ์ํด ํ์ต๋๋ค. ์ ๋ ฅ $\mathbf{x} = [x_{1}, x_{2},...,x_{n}]$๊ฐ ์ฃผ์ด์ง๋ฉด, MLM์ ์ฒ์์ mask out $\textbf{m}=[m_{1},...,m_{k}]$ํ position์ ๋๋ค ํ๊ฒ ์ ํํ๋ค. ์ ํ๋ position์ ํ ํฐ๋ค์ [MASK] ํ ํฐ์ผ๋ก ๋์ฒด๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ $\textbf{x}^{masked}=REPLACE(\textbf{x}, \textbf{m}, [MASK])$์ผ๋ก ๋ํ๋ธ๋ค. ๊ทธ๋ค์์, generator๋ masked-out ๋ token์ original ์ ์ฒด์ฑ์ ์์ธกํ๊ธฐ ์ํด ํ์ต๋๋ค. ๋์ฑ ์์ธํ๊ฒ, ์์๋ ์์ $\textbf{x}^{corrupt}$์ masked-out ๋ ํ ํฐ์ generator sample๋ก ๋์ฒดํจ์ผ๋ก์จ ์์ฑ๋๊ณ , discriminator์ ๊ธฐ์กด์ ์ ๋ ฅ $\textbf{x}$์ $\textbf{x}^{corrupt}$๊ฐ ์ผ์นํ๋์ง ์์ธกํ๊ธฐ ์ํด ํ์ต๋๋ค. ๋ชจ๋ธ์ ์ ๋ ฅ๋ค์ ๊ณต์ํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆฌ๊ณ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
๋น๋ก GAN์ ํ์ต ๋ฐฉ์๊ณผ ์ ์ฌํ์ง๋ง, ์ฌ๊ธฐ์๋ ๋ค์ํ ์ค์ํ ์ฐจ์ด์ ์ด ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, generator๊ฐ ์ฌ๋ฐ๋ฅธ ํ ํฐ์ ์์ฑํ๋ค๋ฉด, ๊ทธ ํ ํฐ์ 'fake' ๋์ ์ 'real'๋ก ๊ณ ๋ ค๋๋ค. ์ด๋ฌํ ์ ์ด downstream task์์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ์ ์ ์์๋๋ค. ๋์ฑ ์ค์ํ ๊ฒ์, generator๊ฐ discriminator์ ์์ด๊ธฐ ์ํด ์ ๋์ ์ผ๋ก ํ์ต๋๋ ๊ฒ์ด ์๋๋ผ, maximum likelihood๋ก ํ์ต๋๋ค๋ ์ฌ์ค์ด๋ค. generator์ ์ ๋์ ์ผ๋ก ํ์ต์ํค๋ ๊ฒ์ generator๋ก๋ถํฐ์ sampling์ ์ญ์ ํํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ์ด๋ ค์ด task์ด๋ค. ๋น๋ก, ๊ฐํ ํ์ต์ ์ฌ์ฉํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด๋ณด์์ง๋ง, maximum-likelihood ํ์ต๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ณดํต GAN์์ ํ๋ ๊ฒ์ฒ๋ผ, generator์ noise vector์ ์ ๋ ฅ์ผ๋ก ์ฃผ์ง ์์๋ค.
๋ ผ๋ฌธ์์๋ raw text์ ํฐ corpus $\textrm{X}$์ ๋ํ combined loss๋ฅผ ์ต์ํํ๋ค.
๋ ผ๋ฌธ์์๋ ๋จ์ผ ์ํ๋ก ์์๋๋ loss๋ฅผ ์ถ์ ํ์๋ค. ๋ ผ๋ฌธ์์๋ generator์ ํตํด discriminator์ ์ญ์ ํํ์ง ์์๋ค. pre-training ํ์๋, generator์ ์ง์ด์น์ฐ๊ณ , downstream task์ ๋ํด discriminator์ fine-tuning ํ์๋ค.
3. Efficiency analysis
๋ ผ๋ฌธ์์๋ token์ small subset์์ ํ๋ masked language modeling์ด ํจ์จ์ ์ด์ง ์๋ค๋ ๊ฒ์ ์ ๊ธฐํ์๋ค. ํ์ง๋ง, ์ด๊ฒ์ด ์ฌ์ค์ธ์ง๋ ์์ ํ ๋ช ํํ์ง ์๋ค. ๊ฒฐ๊ตญ์ ๋ชจ๋ธ์ ์ ์ ์์ masked token๋ง ์์ธกํจ์๋ ๋ถ๊ตฌํ๊ณ , ๊ฑฐ๋ํ ์์ ์ ๋ ฅ token์ ๋ฐ๋๋ค. ELECTRA๋ฅผ ํตํด์ ์ป์ด์ง๋ ์ด๋์ ๋ ์ ์ดํดํ๊ธฐ ์ํด์, ๋ ผ๋ฌธ์์๋ BERT์ ELECTRA ์ฌ์ด์ "๋๋ค๋" ์ธํธ๋ก ์ค๊ณ๋ ๋ค๋ฅธ pre-training ๋ชฉํ๋ฅผ ๋น๊ตํ์๋ค.
- ELECTRA 15%: ์ด ๋ชจ๋ธ์ ์ค์ง 15%์ masked out ๋ ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ค๋ discriminator loss๋ง์ ์ ์ธํ๋ฉด, ELECTRA์ ๋์ผํ๋ค. ๋ค๋ฅธ ๋ง๋ก๋, ์ฆ, discriminator loss์ธ $L_{Disc}$์ ํฉ์ 1์์ n๊น์ง๊ฐ ์๋๋ผ i∈m ์ด์์ด๋ค.
- Replace MLM: ์ด ๋ฐฉ๋ฒ ๋ํ masked language modeling๊ณผ ๋๊ฐ์ง๋ง, masked-out ํ ํฐ์ [MASK]๋ก ๋์ฒดํ๋ ๋์ ์, generator model๋ก๋ถํฐ ์์ฑ๋ ํ ํฐ์ผ๋ก ๋์ฒดํ๋ค. ์ด ํ ์คํธ๋ ELECTRA๊ฐ fine-tuning์ด ์๋ pre-training ์ค์ [MASK] ํ ํฐ์ ๋ชจ๋ธ์ ๋ ธ์ถํ๋ ๋ถ์ผ์น๋ฅผ ํด๊ฒฐํจ์ผ๋ก์จ ์ด๋ ์ ๋๊น์ง ELECTRA์ ์ด๋์ด ๋ฐ์ํ๋์ง๋ฅผ ํ ์คํธํ๋ค.
- All-Tokens MLM: Replace MLM๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, masked token์ generator์ sample๋ก ๋ณํ๋๋ค. ๊ฒ๋ค๊ฐ, ๋ชจ๋ธ์ masked out ๋ ํ๋์ ํ ํฐ๋ฟ๋ง ์๋๋ผ, ์ ๋ ฅ์ ์ ์ฒด ํ ํฐ์ ๋ํด์ ์ ์ฒด์ฑ์ ์์ธกํ๋ค. ๋ ผ๋ฌธ์์๋ sigmoid ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ํ ํฐ์ ๋ํ copy probability D๋ฅผ ์ถ๋ ฅํ๋ ๋ช ์์ copy mechanism์ผ๋ก ์ด ๋ชจ๋ธ์ ํ๋ จํ๋ ๊ฒ์ด ๊ฐ์ ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๊ฒฌํ๋ค. ๋ชจ๋ธ์ ์ถ๋ ฅ ๋ถํฌ๋ ์ ๋ ฅ ํ ํฐ์ D ๊ฐ์ค์น๋ฅผ ๋ํ๊ณ MLM softmax ์ถ๋ ฅ์ 1 - D ๋ฐฐ๋ฅผ ๋ํ๋ค. ์ด ๋ชจ๋ธ์ ๋ณธ์ง์ ์ผ๋ก, BERT์ ELECTRA์ ์กฐํฉ์ด๋ค. generator replacement๊ฐ ์๋ค๋ฉด, ์ด ๋ชจ๋ธ์ [MASK] ํ ํฐ์ ๋ํ ์ดํ์์ ์์ธก์ ์ํํ๊ณ , ๋ค๋ฅธ ํญ๋ชฉ์ ๋ํ ์ ๋ ฅ์ ๋ณต์ฌํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ํ๊ฒ ํ์ตํ๋ค.
๊ฒฐ๊ณผ๋ค์ ๋ค์์ ํ 1์ ์ค๋ช ๋์ด ์๋ค. ์ฒ์์ผ๋ก, ๋ ผ๋ฌธ์์๋ ELECTRA๊ฐ ํ๋์ subset์ ๋ํด์ loss๋ฅผ ๊ฐ์ง๊ธฐ๋ณด๋ค๋ ๋ชจ๋ ์ ๋ ฅ ํ ํฐ์ ๋ํด์ loss๋ฅผ ๊ฐ์ง์ผ๋ก์จ ์์ฒญ๋ ์ด๋์ ๋ณธ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ELECTRA 15% ๋ชจ๋ธ์ด ELECTRA์ ํจ์ฌ ๋ชป ๋ฏธ์น๋ ์ฑ๋ฅ์ ๋ธ ๊ฒ์ฒ๋ผ ๋ง์ด๋ค. ๋ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์์๋ BERT์ ์ฑ๋ฅ์ด [MASK] ํ ํฐ ๋๋ฌธ์ ๋ฐ์ํ๋ pre-train๊ณผ fine-tune ๊ฐ์ ๋ถ์ผ์น๋ก ์ธํ์ฌ ์ฑ๋ฅ์ด ์ด์ง ๊ฐ์ํ๋ค๋ ๊ฒ์ ์์๋๋ค. ๋ง์น Replace MLM์ด BERT์ ์ฑ๋ฅ์ ์๋๋ ๊ฒ์ฒ๋ผ ๋ง์ด๋ค. BERT๋ ์ด๋ฏธ pre-train๊ณผ fine-tune ๊ฐ์ ๋ถ์ผ์น๋ฅผ ๋์์ฃผ๋ trick์ด ์๋๋ฐ, ๊ทธ๊ฒ์ masked token์ 10% ์ ๋๋ [MASK] ํ ํฐ์ผ๋ก ๋ฐ๊พธ์ง ์๊ณ , ๊ทธ๋๋ก ๋๋๋ ๋ฐฉ์์ผ๋ก ๋ถ์ผ์น๋ฅผ ์กฐ๊ธ์ด๋๋ง ํด์ํ๋ ค๊ณ ํ๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์์ ๋ณด์ฌ์ฃผ๋ ๊ฒฐ๊ณผ๋ ์ด๋ ๊ฒ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ด ๋ฌธ์ ๋ฅผ ์์ ํ ํด๊ฒฐํ ์ ์๋ค๋ ๊ฒ์ ์์๋ด์๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ ผ๋ฌธ์์๋ All-Tokens MLM์ด BERT์ ELECTRA ๊ฐ์ gap์ ๊ฐ์ฅ ์ ๋ฉ๊ฟจ๋ค๋ ๊ฒ์ ์์๋๋ค. ์ ์ฒด์ ์ผ๋ก ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ELECTRA์ ๋ง์ ๊ฐ์ ์ด ๋ชจ๋ ํ ํฐ์ผ๋ก๋ถํฐ์ ํ์ต์ ๊ธฐ์ธํ ์ ์๊ณ ์์ ๊ฐ์ ์ ์ pre-train๊ณผ fine-tuning ๊ฐ์ ๋ถ์ผ์น ์ํ์ ๊ธฐ์ธํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
All-Tokens MLM์ ๋นํด LEECTRA์ ๊ฐ์ ์ ELECTRA์ ์ด์ ์ด ๋จ์ํ ๋ ๋น ๋ฅธ ํ๋ จ ์ด์์์ ๋์จ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์ด์ ๋ํด BERT์ ELECTRA๋ฅผ ์ฌ๋ฌ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ํด ๋น๊ตํจ์ผ๋ก์จ ์ถ๊ฐ์ ์ผ๋ก ์ฐ๊ตฌํ์๋ค$($๊ทธ๋ฆผ 3์ ์ผ์ชฝ$)$. ๊ทธ ๊ฒฐ๊ณผ, ELECTRA๋ก๋ถํฐ ์ป๊ฒ ๋ ์ด์ ์ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์์์ง์๋ก ์ปค์ง๋ค๋ ๊ฒ์ ์๊ฒ ๋์๋ค. ์์ ๋ชจ๋ธ์ ์๋ ด์ ๋ํด ์์ ํ ํ์ต๋๋ค $($๊ทธ๋ฆผ 3์ ์ค๋ฅธ์ชฝ$)$, ๋ณด๋ฉด ELECTRA๊ฐ ์์ ํ ํ์ต๋์์ ๋, BERT๋ณด๋ค downstream task์ ๋ํด์ ๋ ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋์ ELECTRA๊ฐ BERT๋ณด๋ค parameter-efficient ํ๋ค๋ ๊ฒ์ ์ถ์ธกํด๋ณผ ์ ์๋ค, ์๋ํ๋ฉด ๊ฐ ์์น์์ ๊ฐ๋ฅํ ํ ํฐ์ ์ ์ฒด ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ ํ์๋ ์์ง๋ง ELECTRA์ ๋งค๊ฐ๋ณ์ ํจ์จ์ฑ์ ์์ ํ ์ค๋ช ํ๋ ค๋ฉด ๋ ๋ง์ ๋ถ์์ด ํ์ํ๋ค๊ณ ์๊ฐํ๊ธฐ ๋๋ฌธ์ด๋ค.
4. Conclusion
๋ ผ๋ฌธ์์๋ language representation์ ๋ํ ์๋ก์ด self-supervised task์ธ replaced token detection์ ์๊ฐํ์๋ค. ๋ฉ์ธ ์์ด๋์ด๋ text encoder์ ํ์ต์์ผ์ small generator๋ก๋ถํฐ ์์ฑ๋ high-quality์ negative example๋ก๋ถํฐ ์ ๋ ฅ ํ ํฐ์ ๊ตฌ๋ถํ๋ ๊ฒ์ด๋ค. masked language modeling๊ณผ ๋น๊ตํ์ฌ, ๋ ผ๋ฌธ์์ ์ ์๋ ๋ฐฉ๋ฒ์ ๋์ฑ compute-efficient ํ๊ณ , downstream task์ ๋ํด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ์๋์ ์ผ๋ก ์ ์ ์์ ์ปดํจํ ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ์๋ ์ ์๋ํ๋ฏ๋ก ์ปดํจํ ์์์ ๋ํ ์ก์ธ์ค๊ฐ ์ ์ ์ฐ๊ตฌ์์ ์ค๋ฌด์๊ฐ pre-trained ๋ text encoder์ ๊ฐ๋ฐํ๊ณ ์ ์ฉํ ์ ์๊ธฐ๋ฅผ ๋ฐ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
https://arxiv.org/abs/2003.10555