RoBERTa: A Robustly Optimized BERT Pretraining Approach 논문 리뷰

The overview of this paper

이 논문은 BERT의 replication study로 다양한 key parameter들과 training data의 크기의 중요성에 대해 알아보았다. 그 과정에서 연구진들은 BERT는 상당히 undertrained 되었다는 사실을 알아내었다. 그리고 BERT 이후에 출시된 모델들에 대해 BERT가 그에 웃도는 또는 능가하는 성능을 보여줄 수 있다는 것 또한 알아냈다. 실제로도 GLUE, RACE, SQuAD 같은 데이터셋에서 SoTA를 차지하기도 했다. 이러한 결과가 강조하는 것은 이전에 간과되었던 디자인 선택과 요즘에 발표되는 개선안들의 근원에 대해 의문점을 제기하였다.

1. Introduction

2. Background

3. Training Procedure Analysis

3-1. Static vs. Dynamic Masking

3-2. Model Input Format and Next Sentence Prediction

3-3. Training with large batches

3-4. Text Encoding

4. RoBERTa

1. Introduction

현재 수많은 self-training method들이 소개되었다. 예를 들어, EMLo, GPT, BERT, XLM, XLNet 같은 방법들 말이다. 이 방법들은 상당한 성능의 향상을 보여줬지만, 어떠한 점이 이 모델들의 성능을 향상시켰는지 자세히 확인할 수 없다는 점이 난제이다. 훈련을 하는데 드는 비용은 상당하기 때문에, 다양한 크기의 개인적 data를 사용하여, 훈련의 양을 줄이기 때문에, 각 modeling의 장점을 제대로 파악하기 힘들다는 문제가 있다.

그래서 이 논문에서는 BERT의 replication study를 제안하는데, 여기에는 hyperparameter tuning과 훈련 세트 크기의 효과에 대한 세밀한 평가가 포함되어 있다. 논문에서는 BERT가 상당히 undertrained 되어 있다는 사실을 발견하였고, 이 BERT를 발전시킨 RoBERTa라는 모델을 소개하였다. 논문에서 수정한 점을 간단한데, 다음과 같다.

더 많은 양의 데이터 위에서, 더 큰 배치를 가지고 모델을 더 오래 학습시킴
next sentence prediction 제거
더욱 긴 sequence 위에서 학습
훈련 데이터에 대해 역동적으로 변하는 masking 패턴을 적용시킴

그리고 또한, 이전의 데이터셋들과는 다른 더 많은 양의 데이터를 포함하고 있는 새로운 데이터셋 CC-NEWS를 사용하였다. 이와 같은 modification을 통해 실제로도 많은 분야에서 SoTA를 차지하였고, 논문에서 사용된 수정된 masking 모델은 더욱 좋은 성능을 끌어내는 데 상당한 도움을 주었다.

이 논문의 contribution을 살펴보면 다음과 같다.

BERT 디자인 선택의 중요성과 훈련 전략, 그리고 downstream task에 대해 더 좋은 성능을 보여주는 alternative를 소개함
새로운 데이터셋인 CC-NEWS를 사용하여, 더 많은 양의 데이터가 성능 향상에 도움을 준다는 사실을 확인함
모델의 성능이 향상된 것을 보면, 적합한 디자인 선택 아래에서 MLM이 성능을 향상시켰고, 요즘에 소개되는 새로운 method들과 비교해봐도 꿇리지 않을 정도의 성능을 보여줌

2. Background

이 섹션에서는 BERT의 기본적인 배경에 대해서 설명하고 있다. 기본적인 setup과 구조, 훈련 방법, 최적화 방법 등에 대해서 말이다. 이에 대해 자세히 확인하고 싶으면 여기를 참고하시오.

3. Training Procedure Analysis

이 섹션에서는 어떠한 선택이 BERT model을 pre-train하는데 중요한지 탐구하고, 측정해보았다. 그러기 위해 모델은 고정해두고 진행했는데, BERT_BASE $($ L=12, H=768, A=12, 110M params $)$ 와 똑같은 BERT model로 training을 하였다.

3-1. Static vs. Dynamic Masking

BERT는 랜덤하게 마스킹되고, 토큰을 예측한다. 기존의 BERT에서는 data 전처리를 진행할 때, 한 번만 masking을 수행한다. 그 결과로, single static mask가 진행된다. 매 epoch에서 각각의 training instance에 대해 똑같은 mask를 사용하는 것을 피하기 위해, 훈련 데이터는 10번 복제되는데, 각 시퀀스는 그에 따라 40 epoch의 training 위에서 서로 다르게 10번씩 마스킹 된다. 따라서, 각 training sequence는 훈련 중에 같은 마스크로 4번씩 목격된다.

이를 모델에 sequence를 넣을 때마다 masking 패턴을 생성하는 dynamic masking과 비교해보았다. 이것은 더욱 많은 step과 더욱 큰 데이터셋에 대해 pretraining을 할 때 매우 중요하다. 다음의 표 1은 BERT_BASE에 대한 static과 dynamic masking의 성능을 비교해준다.

표 1. static vs. dynamic masking performance

결과를 살펴보면, static도 나름 괜찮은 모습을 보여주고 심지어는 더 나은 성능을 보여주기도 하지만, 전반적인 부분에서 dynamic masking이 더 나은 성능을 보여준다는 것을 알 수 있다. 그래서 본 논문에서는 dynamic masking을 사용한다.

3-2. Model Input Format and Next Sentence Prediction

기존 BERT의 pretraining procedure에서는 모델이 똑같은 document 내에서 나온 이어진 문장이거나, 다른 문장에서 나온 두 문장이 합쳐진 두 개의 document segment를 받는다. 추가적으로, masked language modeling에서, 모델은 document segment가 보조 NSP $($ Next Sentence Prediction $)$ loss를 통해 동일하거나 별개의 문서에서 오는지 여부를 예측하도록 훈련된다.

이전의 연구들에서 NSP loss는 기존의 BERT를 훈련할 때 매우 중요한 요소로 여겨지고 있었다. 만약 NSP를 제거한다면, performance에 상당한 해를 가하게 된다고 알려져 있었다. 하지만, 최근의 연구에서 NSP loss의 필요성에 대해서 의구심을 제기하기 시작했다. 이를 더 잘 이해하기 위해 논문에서는 다양한 alternative training format을 통해 알아보았다.

SEGMENT-PAIR + NSP: BERT의 입력 형식을 NSP loss와 함께 따랐다. 각 입력은 segment 쌍을 가지고 있고, 각각은 다중의 natural sentence를 가지고 있지만, 최종 길이는 512 token보다 적어야만 한다.
SENTENCE-PAIR + NSP: 각 입력은 natural sentence의 쌍을 가지고 있고, 같은 document 내에서 가지고 오거나 서로 다른 document 내에서 가지고 왔다. 그래서 입력은 512 token 보다 짧을 수밖에 없게 된다. 그래서 batch size를 늘림으로써 총 token의 수가 SEGMENT-PAIR + NSP와 비슷하게 맞추었다. 그리고 NSP loss또한 얻었다.
FULL-SENTENCES: 각 입력은 전체 길이가 최대 512개의 토큰이 되도록 하나 이상의 문서에서 연속적으로 샘플링된 전체 문장으로 채워진다. 그래서 입력은 document boundaries를 넘을 수도 있다. 한 문서의 마지막에 다다르면, 다음 문서에서 문장을 샘플링하고 문서 사이에 추가적으로 separator token을 추가한다. 여기서는 NSP loss를 제거하였다.
DOC-SENTENCES: 입력은 FULL-SENTENCES와 비슷하게 생성되었지만, 여기서는 document boundaries를 넘지는 않는다. 입력이 문서의 마지막 가까이에서 샘플링이 되면 이것은 512개의 token보다는 짧을 것이기 때문에, FULL-SENTENCES와 비슷한 수의 총 token 수를 갖기 위해 역동적으로 batch size를 증가시켰다. 여기서도 NSP loss를 제거하였다.

Results

다음의 표 2는 4개의 다른 세팅에 대한 결과를 보여준다.

표 2. input format & Next Sentence Prediction에 따른 성능

첫 번째로, 기존의 SEGMENT-PAIR 입력 포맷을 SENTENCE-PAIR 포맷과 비교하였다. 이 두 포맷은 NSP loss를 얻지만, 후자의 경우에는 single sentence를 사용한다. 논문에서는 individual sentence를 사용하는 것이 downstream task의 성능에 해를 가한다 라는 점을 찾아내었다. 이것이 논문에서 가정하는 것인데, 왜냐하면 모델은 장거리 의존성을 학습할 수 없기 때문이다.

그 다음에 NSP loss가 없는 training과 single document의 텍스트 블록을 사용한 training을 비교하였다. 논문에서는 이러한 세팅이 기존의 BERT_BASE의 결과를 능가하는 것을 확인하였고, NSP loss를 제거하는 것이 downstream task의 성능을 웃돌거나 살짝 상승시킴을 알아냈다. 이것이 가능한 이유는 기존의 BERT에서 오직 loss term만을 지우고, SEGMENT-PAIR의 입력 포맷은 유지하기 때문이다.

마침내, single document에서 오는 시퀀스 제한 $($ DOC-SENTENCES $)$ 이 다중의 document에서 시퀀스를 합치는 것 $($ FULL-SENTENCES $)$ 보다 살짝 나은 것을 알 수 있었다. 하지만, DOC-SENTENCES 포맷의 다양한 barch size 때문에, 논문에서는 관련 작업과 쉽게 비교할 수 있도록 FULL-SENTENCES을 사용했다.

3-3. Training with large batches

이전에 수행된 많은 Neural Machine Translation에서 보여줬듯이 learning rate가 적절하게 상승할 때, 매우 큰 mini-batches와 함께 training을 진행하면, optimization 속도와 end-task의 성능이 함께 상승하는 것을 알 수 있었다. 최근의 연구에서도 마찬가지로, BERT 또한 large batch training이 가능하다.

BERT 논문에서는 BERT_BASE를 batch size 256 sequence와 함께 1,000,000 step 동안 train하였다. 이것은 기울기 누적을 통한 계산 비용에서 배치 크기가 2K 시퀀스인 125K 단계 또는 배치 크기가 8K인 31K 단계에 대한 교육과 동일하다. 다음의 표 3에서는 barch size를 늘리고 train data를 통과하는 횟수를 제어하면서 BERT_BASE의 작업 성능과 복잡도를 비교하였다.

표 3. batch size에 따른 perplexity & end-task performance 비교

논문에서는 큰 batch로 training을 진행하는 것이 MLM을 위한 복잡도 뿐만 아니라 end-task의 정확도를 향상시킨다는 것을 알 수 있었다. 큰 batch는 분산 데이터 병렬 training을 통해 병렬화하기가 더 쉬우며 이후 실험에서는 8K 시퀀스의 batch로 교육하였다.

3-4. Text Encoding

Byte-Pair Encdoing $($ BPE $)$ 는 character와 word-level representation의 하이브리드로, 자연어 corpora에서 일반적으로 사용되는 큰 어휘를 사용할 수 있게 해준다. BPE는 full-word 대신에, subword unit에 의존한다. 여기서 subword unit은 training corpus의 statistical한 분석을 수행함으로써 추출할 수 있다.

BPE의 어휘 크기는 보통 10K에서 100K의 subword unit으로 이루어져있다. 하지만, unicode character은 크고 다양한 corpora를 모델링할 때, 이 어휘의 상당한 부분을 설명할 수 있다. 이전의 연구에서 base subword unit으로 unicode character을 사용하는 대신에 bytes를 사용하는 현명한 BPE 응용 방법을 소개하였다. bytes를 사용하는 것은 적당한 크기 $($ 50K units $)$ 의 subword 어휘를 학습 가능하게 만들어준다.

기존의 BERT에서는 입력을 heuristic tokenization rule에 따라 전처리를 진행한 후에 학습되는 30K 크기의 character-level BPE 어휘를 사용한다. GPT-2 논문에 따라, 입력의 추가 사전 처리 또는 토큰화가 없는 대신에, 50K subword unit을 포함하는 더 큰 바이트 수준 BPE 어휘로 BERT 교육을 고려하였다. 이것은 BERT_BASE와 BET_LARGE에 대해서 각각 약 15,000,000개와 20,000,000개의 추가적인 파라미터를 추가하였다.

이전의 연구들에 의해 이러한 인코딩들 사이에는 그저 살짝 다른 점만이 있다는 것이 드러났고, BPE가 어느 task의 end-task performance에 대해 살짝 좋지 않는 성능을 보여준다는 것이 알려졌다. 그럼에도 불구하고, 범용 인코딩 체계의 장점이 약간의 성능 저하를 능가한다고 믿고 나머지 실험에서 이 인코딩을 사용하였다.

4. RoBERTa

이전 섹션에서 BERT의 pretraining procedure을 수정했을 때, end-task performance를 향상시켰음을 알 수 있었다. 이제 이러한 향상된 점을 모으고 이렇게 묶인 효과를 측정해보았다. 논문에서는 이렇게 생성된 모델 RoBERTa을 Robustly optimized BERT approach라고 부른다. RoBERTa는 다음의 조건에 맞춰서 훈련되었다.

dynamic masking $($ 3-1. 에서 언급 $)$
NSP loss 없는 FULL-SENTENCES $($ 3-2. 에서 언급 $)$
거대한 mini-batches $($ 3-3. 에서 언급 $)$
거대한 byte-level BPE $($ 3-4. 에서 언급 $)$

추가적으로, 논문에서는 지금까지 과소평가 되었던 두 개의 다른 중요한 요소들에 대해 조사하였다. 첫 번째는, pretraining에 사용되는 데이터이고, 두 번째는 데이터를 통한 training 패스의 수 이다. 예를 들어, XLNet architecture는 BERT의 10배에 달하는 데이터로 pre-trained 되었다. 그리고 또한 절반의 optimization 단계에서 8배 더 큰 batch size로 학습되서, BERT에 비해 4배 더 많은 양의 시퀀스를 pretraining에 사용한다.

다른 모델링 선택에서 이러한 요소의 중요도를 분리하기 위해, 논문에서는 BERT_LARGE architecture $($ L=24, H=1024, A=16, 355M parameters $)$ 에 따라 RoBERTa를 교육하는 것으로 시작하였다. 논문에서는 BERT에서 사용된 데이터셋에 비견하는 데이터셋 위에서 100K steps 정도 pretrain을 진행하였다.

Results

실험에 대한 결과를 다음의 표 4에 나타내었다. 훈련 데이터에 대해 제어를 할 때, RoBERTa가 기존의 BERT_LARGE의 결과에 대해 많이 향상된 결과를 제공한다는 것을 알 수 있었다. 이로써 디자인 선택이 얼마나 중요한 지 재차 확인할 수 있었다.

그 다음에, 이 데이터를 세 개의 추가적인 데이터셋을 combine 하였다. 그리고 RoBERTa를 이 combined된 데이터 위에서 이전과 똑같은 training step $($ 100K $)$ 만큼 학습시켰다. 종합적으로, 160GB에 달하는 text 데이터 위에서 pretrain 되었다. 그 결과, 모든 downstream task에 대해서 성능이 개선된 것을 확인할 수 있었다. 그리고 이것이 데이터의 크기와 다양성이 pretraining에서 얼마나 중요한 지 입증하였다.

마침내, RoBERTa를 더욱 길고 증가된 수의 pretraining step에서 pretrain 하였다. $($ 100K -> 300K -> 500K $)$ 이를 통해 downstream task에서 더욱 향상된 성능을 볼 수 있었고, 300K와 500K step 모델은 모든 task에 대해 XLNet_LARGE를 능가하는 모습을 보여줬다. 그렇다고 해서 이 모델들이 오버피팅된 것은 아니고, 추가적인 학습을 통해 더 장점을 이끌어낼 수 있었다.

참고문헌

https://arxiv.org/abs/1907.11692

'Paper Reading 📜 > Natural Language Processing' 카테고리의 다른 글

ELECTRA: Pre-training Text Encoders as Discriminators rather than Generators 논문 리뷰 (2)	2022.12.08
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations 논문 리뷰 (0)	2022.12.07
XLNet: Generalized Autoregressive Pretraining for Language Understanding 논문 리뷰 (0)	2022.12.06
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 논문 리뷰 (0)	2022.11.30
Transformer: 'Attention Is All You Need' 논문 리뷰 (6)	2022.11.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

RoBERTa: A Robustly Optimized BERT Pretraining Approach 논문 리뷰

The overview of this paper

Table of Contents

'Paper Reading 📜 > Natural Language Processing' 카테고리의 다른 글

The overview of this paper

Table of Contents

'Paper Reading 📜 > Natural Language Processing' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역