The overview of this paper
ํ์ตํ๋๋ฐ ์๋นํ ๋ง์ compute๊ฐ ํ์ํ LLM์ zero-shot & few-shot learning์์ ๋์ ๋๋งํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. computational cost๊ฐ ์ฃผ์ด์ง๋ฉด ์๋นํ ์๋ณธ ์์ด ์ด๋ฅผ ๋ณต์ ํ๋ ๊ฒ์ ํ๋ค๋ค. ๋๋ถ๋ถ์ ๋ชจ๋ธ์ ๋ํด API๊ฐ ๊ณต๊ฐ๋์ด ์์ง ์๊ณ full model์ ๊ฐ์ค์น์ ๋ํ ์ ๊ทผ์ด ํ๋ฝ๋์ด ์์ง ์๊ธฐ ๋๋ฌธ์ ์ฐ๊ตฌ๋ฅผ ์งํํ๋ ๋ฐ์ ์ด๋ ค์์ ์ ๊ณตํ๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ ์ฐ๊ตฌ์๋ค์๊ฒ ์์ ํ ๊ณต๊ฐ๋ dcoder-only pre-trained Transformer์ธ Open Pre-trained Transformer(OPT)๋ฅผ ์ ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ OPT-175B๊ฐ GPT-3์ ๋นํด ์ค์ง $\frac {1}{7}$์ ํ์ ๋ฐ์๊ตญ์ ํ์๋ก ํจ์๋ ๋ถ๊ฐํ๊ณ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐํ๋ค.
Table of Contents
1. Introduction
2. Method
3. Evaluations
4. Limitations
1. Introduction
๋ฐฉ๋ํ ์์ text ๋ชจ์์์ ํ์ต๋ LLM์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง ๋์ค๋ค์ ์ด LLM์ ๋ํด ์ง๋ถ๋ API๋ก ์ํธ์์ฉํ ์ ์๊ณ , ์ฌ์ง์ด๋ full model์ ๋ํ ์ก์ธ์ค๋ ์์์ด ๋ง์ ์ฐ๊ตฌ์ค์์๋ง ๊ฐ๋ฅํ๋ค. ์ด๋ ์ฐ๊ตฌ์๋ค์ ์ฐ๊ตฌ ๋ฅ๋ ฅ์ ์ ํ์์ผ์ ์ฌ๋ฌ LM์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ณ ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ฐ๊ตฌ์์๊ฒ ์์ ํ ๊ณต๊ฐํ๊ณ ๊ณต์ ํ๊ธฐ ์ํ 125M ๋ถํฐ 175B๊น์ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ decoder-only pre-trained transformer์ธ Open Pre-trained Transformer(OPT)๋ฅผ ๊ณต๊ฐํ์๋ค. ์ด ๋ชจ๋ธ์ GPT3 ํด๋์ค ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ์ฌ์ด์ฆ์ ๊ฑฐ์ ๋ง๋จน๋๋ก ํ์ต์์ผฐ๋ค. ๋ฌผ๋ก ๋ฐ์ดํฐ ์์ง๊ณผ ํจ์จ์ ํ์ต ๋ฉด์์ ์ต๊ทผ์ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ๋ค์ ์ ์ฉํ์์ง๋ง ๋ง์ด๋ค. ๋ ผ๋ฌธ์์ ์ด๋ฌํ OPT ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๋ชฉํ๋ ๊ท๋ชจ์ ์ผ๋ก reproducible ํ๊ณ responsible ํ ๋ชจ๋ธ์ ๋ง๋ค๊ณ , ์ด๋ฌํ LLM์ ์ํฅ์ ์ฐ๊ตฌํ๋ ๋ง์ ์ฐ๊ตฌ์๋ค๋ก๋ถํฐ ๋ชฉ์๋ฆฌ๋ฅผ ๋ชจ์ผ๊ณ ์ ํ์๋ค. risk, harm, bias, toxicity์ ์ ์๋ research community๋ก๋ถํฐ ์ ํํ๊ฒ ์ ์๋์ด์ผ ํ๋ค. ํ์ง๋ง ์ด๋ฅผ ์ํด์๋ ์ฐ๊ตฌ๋ฅผ ํ๊ธฐ ์ํด ๊ณต๊ฐ๋์ด ์๋ ๋ชจ๋ธ์ด ํ์ํ๋ค.
๋ ผ๋ฌธ์์๋ 125M ~ 66B๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ ๊ณต๊ฐํ์๊ณ , ์์ฒญ์ ๋ฐ๋ผ OPT-175B์ ๋ํ full access๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ ์์ฑ ๋ก๊ทธ๋ถ ๋ฟ๋ง ์๋๋ผ codebase์ธ metaseq๋ ๊ณต๊ฐํ์๋ค. OPT-175B๋ GPT-3์ ๋นํด $\frac {1}{7}$ ์ ๋์ ํ์๋ฐ์๊ตญ์ ์ฌ์ฉํด์ ๊ตฌํ์ด ๊ฐ๋ฅํ์๋ค. ๊ทธ๋ ๋ค๊ณ ํด๋ ์์ง ์ด๋ฌํ ๋ชจ๋ธ์ ๋ง๋๋๋ฐ ํ์ํ ์๋์ง ๋น์ฉ์ ์ฌ์ํ์ง ์๋ค.
๋ ผ๋ฌธ์์๋ ์ ์ฒด AI ์ปค๋ฎค๋ํฐ๊ฐ ํจ๊ป ํ๋ ฅํ์ฌ ์ผ๋ฐ์ ์ผ๋ก responsible AI์ ํนํ responsible LLM์ ๋ํ ๋ช ํํ ์ง์นจ์ ๊ฐ๋ฐํด์ผ ํ๋ค๊ณ ์๊ฐํ์๋ค. ๋ ๋ง์ AI ์ปค๋ฎค๋ํฐ๋ reproducible ์ฐ๊ตฌ๋ฅผ ์ํํ๊ณ ์ด ๋ถ์ผ๋ฅผ ๋ฐ์ ์ํค๊ธฐ ์ํด AI ์ปค๋ฎค๋ํฐ๋ ์ด๋ฌํ ๋ชจ๋ธ์ ์ ๊ทผํ ์ ์์ด์ผ ํ๋ค. ๋ ผ๋ฌธ์์๋ full access๊ฐ ๊ฐ๋ฅํ OPT๋ฅผ ๊ณต๊ฐํจ์ผ๋ก์จ ์ฐ๊ตฌ์๋ค์ด ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๋ง์ ์ฐ๊ตฌ๋ค์ ์งํํ๊ณ ๊ทธ๋ฌ๋ฉด์ ์ด๋ฌํ LLM ๊ธฐ์ ์ ์ค๋ฆฌ์ ๋ฌธ์ ๋ฅผ ์ ์ํ๋ ๋ค์ํ ๋ชฉ์๋ฆฌ๋ค์ ๋ด์ฃผ๊ธธ ๋ฐ๋ผ๊ณ ์๋ค.
2. Method
2-1. Models
๋ ผ๋ฌธ์์๋ 125M์์ 175B ๊น์ง์ 8๊ฐ์ Transformer LM์์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ํคํ ์ฒ์ ๋ํ ์ผ์ ๋ค์์ ํ 1์ ๋ํ๋ ์๋ค. ๋ชจ๋ธ์ ํฌ๋ช ์ฑ๊ณผ ํ์ต ๋ถ์์ ์ฑ์ ์ํ์ ์ค์ด๊ธฐ ์ํด GPT-3์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ถ๋ถ ๋ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํฅ์๋ ๊ณ์ฐ ํจ์จ์ฑ์ ์ป๊ธฐ ์ํด ๋ค์ํ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ํ์ฉํ์๋ค.
2-2. Pre-training Corpus
pre-training corpus๋ RoBERTa, the Pile, PushShift.io์ Reddit ๋ฐ์ดํฐ์ ์ ์ฐ๊ฒฐํ์ฌ ์ฌ์ฉ๋์๋ค. ๋ชจ๋ corpora๋ ์ฃผ๋ก ์์ด ํ ์คํธ๋ฅผ ํฌํจํ๋๋ก ์ด์ ์ ์์ง ๋๋ ํํฐ๋ง๋์์ง๋ง ์๋์ ๋น์์ด ๋ฐ์ดํฐ๊ฐ CommonCrawl์ ํตํด ๋ง๋ญ์น ๋ด์ ์ฌ์ ํ ์กด์ฌํ๋ค.
๋ ผ๋ฌธ์์๋ MinihashLSH๋ฅผ ํตํด ๋ณต์ ๋ ๋ฌธ์๋ฅผ ํํฐ๋งํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, the Pile์ ์์ ํ ๋ณต์ ๋์ด ์๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ชจ๋ corpora๋ GPT-2์ byte level BPE tokenizer๋ฅผ ์ฌ์ฉํ์๋ค. ์ต์ข ์ ์ผ๋ก ๊ฑฐ์ 180B ๊ฐ์ ํ ํฐ์ ํฌํจํ๋ corpus๊ฐ ๋์จ๋ค.
๋ ผ๋ฌธ์์ pre-training corpus๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- RoBERTa: BookCorpus, Stories๋ฅผ ์ฌ์ฉ
- The Pile: the Pile์ ์๋ธ์ ํฌํจ. the Pile์์๋ ๋ช ๊ฐ์ ๋ฐ์ดํฐ์ ๋ง ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ค์ ํ์ต์ ๋ถ์์ ์ฑ์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๊ธฐ ๋๋ฌธ
- PushShift.io Reddit: PushShift.io์ ์๋ธ์ ํฌํจ. conversational tree๋ฅผ LM์ด ์์๋ฃ๋ ๋ฌธ์๋ก ๋ณํํ๊ธฐ ์ํด ๊ฐ comment์ ๊ฐ์ฅ ๊ธด chain์ ์ถ์ถํ๊ณ tree์ ๋ค๋ฅธ part๋ค์ ๋ชจ๋ ์ ๊ฑฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, corpus๋ฅผ 66% ์ ๋ ๊ฐ์์ํฌ ์ ์์๋ค.
2-3. Training Process
์ฌ๊ธฐ์์๋ OPT-175B pre-training ์ค์ ๋ฐ์ํ๋ ์๋นํ training ํ๋ก์ธ์ค์ ์กฐ์ ์ ๋ํด ์ค๋ช ํ๊ฒ ๋ค.
Hardward Failures. ๋ ผ๋ฌธ์์๋ ์๋นํ ์์ ํ๋์จ์ด ์ค๋ฅ๋ฅผ ์ง๋ฉดํ์๋ค. ์ข ํฉ์ ์ผ๋ก ์ต์ 35๋ฒ์ ์๋ restart๊ฐ ํ์ํ๊ณ 100๊ฐ ์ด์์ ํธ์คํธ์์ 2๋ฌ๊ฐ ๋ฐ๋ณต๋์๋ค. ๊ทธ๋ฆฌ๊ณ ์ถ์ ๊ฒฐ๊ณผ hardward failure ๋๋ฌธ์ 70๋ฒ ์ด์์ ์๋์ ์ฌ์์์ ํ์๋ค.
Loss Divergences. ๋ ผ๋ฌธ์ training ์คํ ์์ Loss Divergence๋ ๋ฌธ์ ์๋ค. loss๊ฐ ๊ฐ๋ผ์ง ๋ learning rate๋ฅผ ๋ฎ์ถ๊ณ ์ด์ ์ฒดํฌํฌ์ธํธ๋ก๋ถํฐ ๋ค์ ์์ํจ์ผ๋ก์จ training์ ํ๋ณตํ๊ณ ๊ณ์ํ์๋ค. ๋ ผ๋ฌธ์์๋ loss divergence, ๋์ loss scalar๊ฐ 0์ผ๋ก ์ถฉ๋ํ๋ ๊ฒ๊ณผ ์ต์ข ๋ ์ด์ด ์คํ์ดํฌ์ ํ์ฑํ ํจ์์ $l^{2}$-norm ์ฌ์ด์ ์๊ด๊ด๊ณ๋ฅผ ํ์ธํ์๋ค. ์ด๋ฌํ ๊ด์ฐฐ์ restart point๋ฅผ ๋์ loss scalar ๊ฐ์ด ์์ง "healthy"ํ ์ํ($\geq 1.0$)์ ์๋ ์ง์ ์ ์ ํํ์๊ณ , ๊ทธ ํ ํ์ฑํ norm์ ๋ฌดํํ ์ฆ๊ฐํ๋ ๋์ ํํฅ ์ถ์ธ๋ฅผ ๋ณด์ผ ๊ฒ์ด๋ค. OPT์ ์คํ์ LR ์ค์ผ์ค์ ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ค. ํ์ต ์ด๊ธฐ์ gradient clipping์ 1.0์์ 0.3์ผ๋ก ๋ฎ์ถ๋ ๊ฒ์ด ์์ ์ฑ์ ๋์์ด ๋๋ค. ์ด๋ ๋ก๊ทธ๋ถ์ ๋ณด๋ฉด ๋์ฑ ์์ธํ๊ฒ ํ์ธํ ์ ์๋ค. ๊ทธ๋ฆผ 2๋ training ๋ฐ๋ณต์ ๋ฐ๋ฅธ validation loss๋ฅผ ๋ณด์ฌ์ค๋ค.
Outer Mid-flight Changes. ๋ ผ๋ฌธ์์๋ loss divergence๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด mid-flight ๋ณํ๋ฅผ ๋ช ๊ฐ์ง ์ํํ๋ค.
- vanilla SGD๋ก ์ค์์น(์ต์ ํ๊ฐ ๋น ๋ฅด๊ฒ ์๋ ดํด์ ๋ค์ AdamW๋ก ๋์์ด)
- ๋์ loss scalar์ reset(๋ช ๊ฐ์ divergence์ ๋ํด์๋ ๋์์ด ๋์ง๋ง ๋ชจ๋ divergence์ ๊ทธ๋ฐ ๊ฒ์ ์๋)
- ์๋ก์ด ๋ฒ์ ์ Megatron์ผ๋ก ์ค์์น(activation norm์ ๋ํ ์๋ฐ์ ์ค์ด๊ณ ์ฒ๋ฆฌ๋์ ๊ฐ์ ์ํด)
3. Evaluation
3-1. Prompting & Few-Shot
๋ ผ๋ฌธ์์๋ OPT๋ฅผ 16๊ฐ์ ๊ธฐ์กด NLP task์์ ํ๊ฐ๋ฅผ ์งํํ์๋ค. ๋ ผ๋ฌธ์์๋ GPT-3์ prompt์ ์ ๋ฐ์ ์ธ experimental setup์ ์ฌ์ฉํจ์ผ๋ก์จ GPT-3๋ฅผ ๋ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฃผ๋ก GPT-3์ ๋น๊ตํ์๋ค.
Zero-shot. ๋ชจ๋ 14๊ฐ์ task์ ๋ํ ์ ๋ฐ์ ์ธ ํ๊ท zero-shot ์ฑ๋ฅ์ ๊ทธ๋ฆผ 3์์ ๋ณผ ์ ์๋ค. ์ ๋ฐ์ ์ผ๋ก OPT์ ํ๊ท ์ฑ๋ฅ์ GPT03์ ์ถ์ธ๋ฅผ ๋ฐ๋ฅด๋ ๋ชจ์์๋ฅผ ์ทจํ์๋ค. ํ์ง๋ง task์ ๋ฐ๋ผ ์ฑ๋ฅ์ ๋ค์ํ๋ ์ ์๋ค. ํ์ง๋ง task์ ๋ฐ๋ผ ์ฑ๋ฅ์ ๋ค์ํ๋ ์ ์๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ์๋์ ์ผ๋ก MultiRC & WIC๋ ์ ๊ฑฐํ์๋๋ฐ, ์ด task์์ GPT-3 ๋๋ OPT์ ๋ํด ๋ถ๊ท ํ์ ์ผ๋ก ์ฐํธ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
10๊ฐ์ task์ ๋ํด์ GPT-3์ ๊ฑฐ์ ์ผ์นํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , 3๊ฐ์ task์ ๋ํด์๋ ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ GPT์ OPT๋ scale์ ๋ฐ๋ผ ์์ํ์ง ๋ชปํ ํน์ฑ์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค.
Chinchilla์ Gopher๋ ์ด๋ค๊ณผ ๋น์ทํ ์ฌ์ด์ฆ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๊ฑฐ์ ์ผ๊ด์ ์ธ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ฉด์, PaLM์ ํ๋ผ๋ฏธํฐ์ ์๋ฅผ ์กฐ์ ํด๋ ๋ชจ๋ ์ธํ ์์ ๋ ๋์ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ PaLM์ ์ข์ ์ฑ๋ฅ์ด ์ฃผ๋ก ๋์ ํ๋ฆฌํฐ์ ๋ค์ํ pre-training data๋ก๋ถํฐ ์จ๋ค๊ณ ์ถ์ธกํ์๋ค.
One-shot & Few-shot. ํ๊ท multi-shot in-context์ ์ฑ๋ฅ์ด ๊ทธ๋ฆผ 4์ ๋ํ๋ ์๋ค. ๋ชจ๋ metric ํ๊ท ์ ๋ํด OPT๋ GPT-3์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, zero-shot์์ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค 10๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด ์ด๋ฒ ๊ฒฝ์ฐ์๋ GPT-3์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์์๋ค. ๊ทธ๋ ์ง๋ง ๋จ์ ๋ฐ์ดํฐ์ ์์ OPT & GPT-3๋ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ฐ๋ผ ์ผ๊ด๋์ง ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ ์์๋ค.
3-2. Dialogue
๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ผ๋ก OPT-175B๋ฅผ ์ฌ๋ฌ ์คํ ์์ค dialogue ๋ฐ์ดํฐ์ ์์ ํ๊ฐํ์๋ค. fine-tuned BlenderBot 1๊ณผ ์ด๊ฒ์ pre-training counterpart์ธ Reddit 2.7B๋ฅผ ํฌํจํ ๊ธฐ์กด์ ์คํ ์์ค dialogue model์ ๋น๊ตํ๋ ๊ฒ์ ์ค์ ์ ๋์๋ค. ๋ํ fine-tuned R2C2 BlendorBot์ ๋ํด์๋ ๋น๊ตํ์๋ค.
๊ทธ ๊ฒฐ๊ณผ๋ ํ 2์ ๋ํ๋ ์๋ค. ๋ ผ๋ฌธ์์๋ OPT-175B๊ฐ Unsupervised Reddit 2.7B๋ฅผ ๋ชจ๋ task์์ ๋ฅ๊ฐํ๊ณ , fully Supervised BlendorBot 1๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. OPT-175B๋ ๊ฐ์ฅ ๋ฎ์ perplexity๋ฅผ ๊ฐ์ง์ง๋ง ์์ง Wizard-of-Wikipedia supervision์ ์ฌ์ฉํ๋ ๋ชจ๋ธ๋ณด๋ค ๋ ๋ฎ์ UF1์ ๊ฐ์ง๋ค.
3-3. Bias & Toxicity Evaluations
OPT-175B์ ์ ์ฌ์ ์ํ์ ์ดํดํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ hate speech detection, stereotype awareness, toxic content generation์ ๊ด๋ จ๋ ์ผ๋ จ์ ๋ฒค์น๋งํฌ์์ ํ๊ฐํ์๋ค. ๊ทธ๋ฆฌ๊ณ OPT๋ฅผ ์ฃผ๋ก GPT-3 Davinci์ ๋ํด์ ๋น๊ตํ์๋ค. task์ ๋ํ ์ค๋ช ์ ์๋ตํ๊ณ ์คํ ๊ฒฐ๊ณผ์ ๋ํด์ ์ฃผ๋ก ์ดํด๋ณด๊ฒ ๋ค.
Hate Speech Detection. ๊ฒฐ๊ณผ๋ ํ 3์ ๋ํ๋ ์๋ค. one-shot & few-shot ๊ตฌ์ฑ์์ OPT-175B๋ Davinci๋ณด๋ค ์๋นํ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ฐ ๋ ๊ฐ์ง ์ด์ ๊ฐ ์๋ค๊ณ ๋ณธ๋ค.
- Davinci API๋ safety control ๋ฉ์ปค๋์ฆ์ ๋ถ๋ฌ์ด
- pre-training ๋ฐ์ดํฐ์ ์์ ๋ณดํต์ social media discussion์ ์๋นํ ์กด์ฌ๋ ์ด๋ฌํ classification task๋ฅผ ๋๊ธฐ ์ํ ์ถ๊ฐ์ inductive bias๋ฅผ ์ ๊ณตํจ
CrosS-Pairs. 9๊ฐ์ ์นดํ ๊ณ ๋ฆฌ์ ๋ํ bias๋ฅผ ์ธก์ ํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ์ด๋ค. OPT-175B๋ฅผ Davinci์ ๋น๊ตํ์ ๋(ํ 4), ๊ฑฐ์ ๋๋ถ๋ถ์ ์นดํ ๊ณ ๋ฆฌ์์ OPT-175B๋ ๋์ฑ ๊ณ ์ ๊ด๋ ์ bias๋ฅผ ๋ณด์ฌ์คฌ๋ค. ์ด๋ training data์ ์ฐจ์ด ๋๋ฌธ์ด๋ผ๊ณ ์ฌ๊ฒจ์ง๋ค. PushShift.io Reddit corpus๋ ๋ค๋ฅธ corpus์ ๋นํด ๊ณ ์ ๊ด๋ ๊ณผ ์ฐจ๋ณ์ ๋ํ ๋์ ๋ฐ์๋ฅ ์ ๊ฐ์ง๋ค. ์ด ๋ฐ์ดํฐ๊ฐ OPT-175B์ ์ฃผ๋ ๋ฐ์ดํฐ ์์ค์ด๊ธฐ ๋๋ฌธ์, OPT-175B๋ ๋์ฑ ์ฐจ๋ณ์ ์ธ ๊ฒ๋ค์ ํ์ตํ์ ์๋ ์๋ค.
StereoSet. 4๊ฐ์ ์นดํ ๊ณ ๋ฆฌ์ ๋ํด ๊ณ ์ ๊ด๋ ์ bias๋ฅผ ์ธก์ ํ๋ ๋ฒค์น๋งํฌ์ด๋ค. StereoSet์ ๋ค์์ 2๊ฐ์ง metric์ ํฌํจํ๋ค: Langauge Modeling Score(LMS) & Stereotype Score(SS). ์ด ๋ ๊ฐ์ Idealized Context Association Test(ICAT) score๋ฅผ ๋ง๋ค๊ธฐ ์ํด ๋ฌถ์ฌ์ง๋ค. ๊ฒฐ๊ณผ๋ ํ 5์ ๋ํ๋ ์๋ค. Davinci์ OPT-175B๋ ์ข ํฉ์ ์ผ๋ก ์ ์ฌํ score๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ ์ง๋ง OPT-175B๋ SS metric์์ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , Davinci๋ LMS metric์์ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
RealToxicityPrompts. ๋ ผ๋ฌธ์์๋ RealToxicityPrompt๋ฅผ ์ฌ์ฉํ์ฌ OPT-175B๊ฐ ๋น์์ด๋กค ์ฌ์ฉํ๋ ๊ฒฝํฅ์ด ์๋์ง ํ๊ฐํ์๋ค. ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 5์ ๋ํ๋ ์๋ค. ์ ๋ฐ์ ์ผ๋ก OPT-175B๋ PaLM๊ณผ Davinci๋ณด๋ค ๋์ toxicity ๋น์จ์ ๊ฐ์ง๋ค. ๊ทธ๋ฆฌ๊ณ 3๊ฐ์ ๋ชจ๋ธ ๋ชจ๋ toxicity prompt๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ toxicํ ๋ฌธ์ฅ์ ์์ฑํ๋ ํ๋ฅ ์ด ์ฆ๊ฐํ๋ ๊ฒ์ ์ ์ ์์๋ค.
Dialogue Safety Evaluations. ๋ง์ง๋ง์ผ๋ก OPT-175B์ 2๊ฐ์ Dialogue Safety evaluation์์ ๋น๊ตํ์๋ค: Safer Dialogues & Safety Bench Unit Tests. ์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์์ ํ 6์ ๋ํ๋ ์๋ค. OPT-175B๋ ๋ task์์ Reddit 2.7B ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ ๋๋ dialogue ๋ฐ์ดํฐ์ ์์ fine-tune ๋ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ผ๋ก ๋ ๋ฎ์ toxicity๋ฅผ ๊ฐ์ก๋ค.
4. Limitations
๋ ผ๋ฌธ์์๋ OPT-175B๋ ๋ค๋ฅธ LLM์์ ๋ณด์ด๋ ๋๊ฐ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์๋ค.
- OPT-175B๋ ์ ์ธ์ instruction๊ณผ ๋น์นธ ์๋ฌธ๋ฌธ์ ๋ํด ์ ์๋ํ์ง ์๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. instruction์ ์คํํ๊ธฐ ๋ณด๋ค๋ ์ด๋ฌํ instruction์ผ๋ก ์์ํ๋ ๋ํ์ ์๋ฎฌ๋ ์ด์ ์ ์์ฑํ๋ ๊ฒฝํฅ์ ๊ฐ์ง๊ณ ์๋ค.
- OPT-175B๋ ๋ํ ๋ฐ๋ณต์ ์ธ ๊ฒฝํฅ์ ๋ณด์ฌ์ฃผ๊ณ loop์ ์ฝ๊ฒ ๊ฐํ๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ํ๋ง์ ์ด๋ฐ ๋ฐ๋ณต์ ํน์์ ๋ฐ์๋ฅ ์ ๋ฎ์ถฐ์ค๋ค. ํ๋์ ์์ฑ์ด ์ํ๋ง๋ ๋ ์ด๊ฒ์ด ์์ ํ ์ฌ๋ผ์ง๋ ๊ฒ์ ์๋๋ค.
- ๋ค๋ฅธ LLM๊ณผ ์ ์ฌํ๊ฒ OPT-175B๋ ์ฌ์ค์ ์ผ๋ก ์๋ชป๋ ์ ๋ณด๋ฅผ ์ ๊ณตํ ์ ์๋ค.
์ด์ ์น์ ์์ ๋ดค๋ ๊ฒ์ฒ๋ผ, ๋ ผ๋ฌธ์์๋ OPT-175B๊ฐ ๋น๊ต์ ์ ์ ์๋ prompt์ ์ฌ์ํ ๊ณต๊ฒฉ์ prompt๊ฐ ๋ฐ๊ฒฌ๋ ๋, ๋์ ๊ฒฝํฅ์ผ๋ก toxic language๋ฅผ ์์ฑํ๊ณ ํด๋ก์ด ๊ณ ์ ๊ด๋ ์ ๊ฐํํ๋ค๋ ๊ฒ์ ๊ฐํํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. downstream ์์์ ์์กดํด์ ํฅํ์ OPT-175B๋ฅผ ์ฌ์ฉํ ๋, ์ํ ๋ฐฉ์๋ค์ ์ฌ์ฉํ์ฌ ์ฌ์ฉํด์ผ ํ ํ์๊ฐ ์๋ค.
์ถ์ฒ
https://arxiv.org/abs/2205.01068