ChatGPT ์ดํ๋ก ์ธ์์ GPT-4์ ์ถ์๋ก ์ธํด ๋ ํ ๋ฒ ๋ค์ฉ์ด๊ณ ์๋ค. ํ์๋ GPT-4๊ฐ ์ฒ์ ๋์ค๊ณ OpenAI์ ์๊ฐ ์์์ ๋ณด๊ณ GPT-4์ ๋ฅ๋ ฅ์ ๋ํด ๊ฐํ ๊ถ๊ธ์ฆ์ ๊ฐ์ง๊ณ ์๋ ์ํ์ด๋ค. GPT-4๋ฅผ ๋ฆฌ๋ทฐํ๊ธฐ ์ ์ GPT-3์ ๋ํด์ ๋จผ์ ๋ฆฌ๋ทฐํด์ผ๊ฒ ๋ค๋ ์๊ฐ์ ์ด๋ ๊ฒ ๋ฆฌ๋ทฐ๋ฅผ ํด๋ณธ๋ค. GPT-3๋ฅผ ์๊ฐํ ๋ ผ๋ฌธ์ธ 'Language Models are Few-Shot Learners'๋ ์ด 75ํ์ด์ง์ ๋ฌํ๋ ๊ธด ๋ ผ๋ฌธ์ด๊ธฐ ๋๋ฌธ์ ๋ค ๋ฆฌ๋ทฐํ๋ ๊ฒ์๋ ๋ฌด๋ฆฌ๊ฐ ์์ด ํน์ ๋ถ๋ถ๋ง ๋ฆฌ๋ทฐํ์๋ค.
The overview of this paper
์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์ํ๋ฉด ๋ง์ NLP task์ ๋ํด ์๋นํ ์์ค์ ๋ฒค์น๋งํฌ๋ฅผ ์ป๊ฒ ๋ ๋ฐ์๋ ๊ฑฐ๋ํ ์์ text corpus์ ๋ํด pre-trainingํ๊ณ specific task์ ๋ํด fine-tuning์ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ง๋ง, ์ด ๋ฐฉ๋ฒ์ task-specificํ fine-tuning ๋ฐ์ดํฐ์ ์ ๋ง์ด ํ์๋ก ํ๋ค. ์ด์๋ ๋ฐ๋๋ก, ์ฌ๋์ ์ ์ ์์ ๋๋ ์ค๋ช ์ผ๋ก๋ ์๋ก์ด task๋ฅผ ๋ฌธ์ ์์ด ์ํํ ์ ์๋ค. ์ด๋ฌํ ์ ์ด ํ์ฌ NLP ์์คํ ์ด ๊ฐ์ฅ ํ๋ค์ด ํ๊ณ ์๋ ๋ถ๋ถ์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ ๋ค์์ contribution์ ๋ณด์ฌ์ค๋ค.
- ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆผ์ผ๋ก์จ task-agnostic, few-0shot ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , ๋๋ก๋ ์ด์ ์ fine-tuning SOTA์ ๊ฒฌ์ฃผ๋ ์ฑ๋ฅ์ ์ป์ ์ ์๋ค๋ ๊ฑธ ๋ณด์ฌ์ค๋ค.
- 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ํ์ต๋ autoregressive model, GPT-3. ์ด๋ ์ด์ ์ non-sparse ๋ชจ๋ธ๋ณด๋ค 10๋ฐฐ ๋ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , few-shot ์ธํ ์์ testํจ.
- ๋ชจ๋ task์ ๋ํด GPT-3๋ ์ด๋ ํ ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ๋ fine-tuning์ด ์์
๊ทธ๋ฆฌ๊ณ GPT-3๋ ์ฌ๋ ํ๊ฐ์๊ฐ ์ฌ๋์ด ์ด ๊ฑด์ง ์ธ๊ณต์ง๋ฅ์ด ์ด ๊ฑด์ง ํท๊ฐ๋ฆด ๋งํผ์ ๋ด์ค ๊ธฐ์ฌ๋ฅผ ์จ๋ผ ์ ์๋ค! ๐ซข
Table of Contents
1. introduction
2. Approach
1. Introduction
์ต๊ทผ์ NLP task์ ์ฌ์ฉ๋๋ ํจ๋ฌ๋ค์์ LM์ ์ฌ์ฉํ ๋ฐฉ์์ธ๋ฐ, ์ด ๋ฐฉ์์ ์ฃผ๋ ํ๊ณ์ ์ architecture๊ฐ ๋๋ฌด task-agnosticํ๊ณ , task-specific dataset๊ณผ task-specific fine-tuning์ด ํ์ํ๋ค๋ ๊ฒ์ด๋ค. task์ ๋ํด ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด์๋ ์๋ง์ ๋ฐ์ดํฐ์ ๋ํด ๋ชจ๋ธ์ fine-tuning ํด์ผ ํ๋ค. ์ด๋ฌํ ํ๊ณ์ ์ ๋ค์๊ณผ ๊ฐ์ ์ฌ๋ฌ ์ด์ ๋ก ํด๊ฒฐ๋์ด์ผ ํ ํ์๊ฐ ์๋ค.
- ์ค์ฉ์ ์ธ ๊ด์ ์์, ๋งค ์๋ก์ด task์ ๋ํด ๊ฑฐ๋ํ labeled dataset์ ํ์๋ LM์ ํ์ฉ์ฑ์ ์ ์ฝ์ ๊ฑด๋ค.
- ๋ชจ๋ธ์ ํํ๋ ฅ๊ณผ ํ์ต ๋ถํฌ์ ํ์ํจ์ ๋ฐ๋ผ ํ๋ จ ๋ฐ์ดํฐ์ ๊ฐ์ง ์๊ด ๊ด๊ณ๋ฅผ ์ ์ฉํ ๊ฐ๋ฅ์ฑ์ด ๊ทผ๋ณธ์ ์ผ๋ก ์ปค์ง๋ค. ๋ฐ๋ผ์ ํน์ ๋ฒค์น๋งํฌ์์ fine-tuning๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ช ๋ชฉ์ ์ธ๊ฐ ์์ค์ธ ๊ฒฝ์ฐ์๋ ๊ธฐ๋ณธ task์ ๋ํ ์ค์ ์ฑ๋ฅ์ ๊ณผ์ฅ์ผ ์๋ ์๋ค.
- ์ฌ๋์ ์ธ์ด task๋ฅผ ํ์ตํ ๋ ๊ฑฐ๋ํ supervised dataset์ ํ์๋ก ํ์ง ์๋๋ค. ์ธ์ด์ ๋ํ ๊ฐ๋ตํ ์์ฝ์ด๋ ์ ์ ์์ ์ค๋ช ์ด๋ฉด ์ถฉ๋ถํ๋ค. ์ด๋ฌํ ์ ์์ฑ์ ์ค์ฉ์ ์ธ ์ด์ ๋ํ ์๋๋ฐ, ๊ธด ๋ํ ์ค์ ์ถ๊ฐ๋ฅผ ์ํํ๋ ๊ฒ๊ณผ ๊ฐ์ด ์ธ๊ฐ์ด ์ํํ๊ฒ ํผํฉํ๊ฑฐ๋ ๋ง์ ์์ ๊ณผ ๊ธฐ์ ๊ฐ์ ์ ํํ ์ ์๋ ๊ฒ์ด๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ 'meta-learning' ์ด๋ค. ์ด๋ฅผ LM์ ๋ฌธ๋งฅ์์ ์ค๋ช ํ๋ฉด ๋ชจ๋ธ์ด training time์ ๊ด๋ฒ์ํ ์คํฌ๊ณผ ํจํด ์ธ์ ๋ฅ๋ ฅ์ ํ์ตํ๊ณ , ์ด ๋ฅ๋ ฅ์ inference time์ ์ฌ์ฉํด์ task์ ๋น ๋ฅด๊ฒ ์ ์ํ๊ณ ์ดํดํ ์ ์๊ฒ ํด์ค๋ค. ์ด์ ๋ํ ์ค๋ช ์ด ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ค. ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ์ด๋ฅผ ์๋ํ๊ธฐ ์ํด "in-context learning" ๋ฐฉ์์ ์ฌ์ฉํ๊ณ ์๋ค. ์ด ๋ฐฉ์์ pre-trained LM์ text input์ task specification์ ํํ๋ก ์ฌ์ฉํ๋ค. ๋ชจ๋ธ์ ์์ฐ์ด ์ง์นจ ๋ฐ/๋๋ task์ ๋ช ๊ฐ์ง ์์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ ๋ค์์ ์ค๋ ๊ฒ์ ์์ธกํ์ฌ ์์ ์ ์ถ๊ฐ ์ธ์คํด์ค๋ฅผ ์๋ฃํ ๊ฒ์ผ๋ก ์์๋๋ค.
์ด ๋ฐฉ์์ ์ฝ๊ฐ ํฌ๋ง์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, fine-tuning ๋ฐฉ์์ ๋นํด์๋ ์์ง ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
LM์ ๋ ๋ค๋ฅธ ์ถ์ธ๋ ์์ผ๋ก ๋์๊ฐ ๊ธธ์ ์ ๊ณตํ๊ณ ์๋ค. ์ต๊ทผ ๋ช ๋ ๋์์ transformer LM์ ํ๋ผ๋ฏธํฐ๋ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋๊ณ ์๋ค. 1์ต ํ๋ผ๋ฏธํฐ์์ ์์ํด์ GPT-3์ ํ๋ผ๋ฏธํฐ ์์ธ 1,750์ต ๊ฐ์ ์ด๋ฅด๊ธฐ๊น์ง ๋ง์ด๋ค. ๊ฐ๊ฐ์ ํ๋ผ๋ฏธํฐ ์์น์ text synthesis ๋ฐ downstream NLP task์๋ ํฅ์์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ ๋ง์ downstream task์ ์๊ด๊ด๊ณ๊ฐ ์๋ log loss๊ฐ ๋ชจ๋ธ์ ๊ท๋ชจ์ ๋ฐ๋ผ ์์กฐ๋ก์ด ๊ฐ์ ์ถ์ธ๋ฅผ ๋ฐ๋ฅธ๋ค๋ ์ฆ๊ฑฐ๊ฐ ์๋ค. in-context learning์ด ๋ง์ skill๊ณผ task๋ฅผ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ํก์ํด๋๊ธฐ ๋๋ฌธ์, in-context learning์ ๋ฅ๋ ฅ์ด ๋ชจ๋ธ์ ๊ท๋ชจ์ ๋ฐ๋ผ ํฅ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๋ ผ๋ฌธ์์๋ 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋ autoregressive model์ธ GPT-3๋ฅผ ํ์ต์ํค๊ณ ์ด ๋ชจ๋ธ์ in-context learning ๋ฅ๋ ฅ์ ์ธก์ ํจ์ผ๋ก์จ ๊ฐ์ค์ ํ์ธํ์๋ค. ๊ฐ๊ฐ์ task์ ๋ํด GPT-3๋ฅผ ๋ค์์ 3๊ฐ์ง ์กฐ๊ฑด ํ์ ๋๊ณ ํ๊ฐํ์๋ค. GPT-3๋ ์ ํต์ ์ธ fine-tuning ์ธํ ํ์์๋ ํ๊ฐ๊ฐ ๊ฐ๋ฅํ๋ฐ, ์ด๋ ํฅํ ์ฐ๊ตฌ๋ก ๋จ๊ฒจ๋์๋ค.
- few-shot learning: ๋ชจ๋ธ์ context window์ ๋ง๋ ๋งํผ์ ์ค๋ช ์ ํ์ฉ
- one-shot learning: ํ๋์ ์ค๋ช ๋ง์ ํ์ฉ
- zero-shot learning: ์ด๋ ํ ์ค๋ช ์์ด, ์ค์ง ์์ฐ์ด์ ๋ํ ์ค๋ช ๋ง์ ๋ชจ๋ธ์๊ฒ ์ ๊ณต
๊ทธ๋ฆผ 2๋ ๋ ผ๋ฌธ์์ ํ์ตํ ์กฐ๊ฑด๋ค์ ์ค๋ช ํ๊ณ ์๊ณ , ๊ฐ๋จํ task์ few-shot learning์ ๋ชจ๋ธ์๊ฒ ๋จ์ด๋ก๋ถํฐ ํ์์๋ ๊ธฐํธ๋ค์ ์ ๊ฑฐํ๋๋ก ์๊ตฌํ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์์ฐ์ด task ์ค๋ช ์ถ๊ฐ์ ๋ชจ๋ธ์ context์ ์๋ ๋ช๋ช์ ์์ $K$์ ํจ๊ป ํฅ์๋์๋ค. few-shot learning์ ์ฑ๋ฅ ๋ํ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ทน์ ์ผ๋ก ํฅ์๋์๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ "ํ์ต" ๊ณก์ ์ด ์ด๋ ํ ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ๋ fine-tuning์ ํฌํจํ์ง ์๊ณ , ๋จ์ง ์กฐ๊ฑด์ผ๋ก ์ ๊ณต๋ ์ค๋ช ์ ์๋ง ์ฆ๊ฐํ๋ค๋ ์ ์ ๊ฐ์กฐํ์๋ค.
GPT-3๋ NLP task์ ๋ํด one-shot๊ณผ zero-shot์์ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค. ์ฌ์ง์ด few-shot ์ธํ ์ SOTA์ ๊ฒฌ์ฃผ๊ฑฐ๋ ๋๋ก๋ ๋์ด์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. GPT-3๋ ๋ํ ๋น ๋ฅธ ์ ์ ๋๋ ์ฆ์ ์ถ๋ฆฌ ๊ด๋ จ task์ ๋ํด์ one-shot๊ณผ few-shot์ ๋ฅ์ํจ์ ๋ณด์ฌ์คฌ๋ค. ๊ทธ๋ฆฌ๊ณ few-shot ์ธํ ์์, GPT-3๋ ์ฌ๋์ด ์ด ๊ฑด์ง ์ธ๊ณต์ง๋ฅ์ด ์ด ๊ฑด์ง ๊ตฌ๋ถํ๊ธฐ ํ๋ค ์ ๋๋ก ๋์ ์์ค์ ๋ด์ค ๊ธฐ์ฌ๋ฅผ ์์ฑํ ์ ์์๋ค. ๋ค์์ ๊ทธ๋ฆผ 3์ ์ฌ๋ฌ task๋ฅผ ๋ชจ์ ์ ๋ฐ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
๋ ผ๋ฌธ์์๋ 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ GPT-3 ๋ชจ๋ธ ํ๋๋ง ๋ง๋ค์ด์ ํ๊ฐํ ๊ฒ์ด ์๋๋ผ 1.25์ต ๊ฐ์์ 130์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ smaller model๋ ๋ง๋ค์ด์ GPT-3์ one, zero, few-shot ์ธก๋ฉด์์ ๋น๊ตํ์๋ค. ์ ๋ฐ์ ์ธ task์ ๋ํด์ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ฑ๋ฅ๋ ํฅ์๋๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ์ค์ ๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ ํจํด์ zero, one, few-shot์ ์ฑ๋ฅ ๊ฐ์ ๊ฐญ์ด ๋ชจ๋ธ์ ์ฉ๋์ด ์ปค์ง์ ๋ฐ๋ผ ์ปค์ง๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ larger model์ด meta-learner๋ก์จ ๋์ฑ ์ ํฉํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
2. Approach
GPT-3์ ๊ธฐ๋ณธ์ ์ธ pre-training ๋ฐฉ์, ๋ชจ๋ธ, ๋ฐ์ดํฐ, ํ์ต์ GPT-2์ ๋ฐฉ์๊ณผ ์ ์ฌํ๋ค. ๋ฌ๋ผ์ง ์ ์ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ก๋ค๋ ์ ๊ณผ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์ปค์ง๊ณ ๋ค์ํด์ง๊ณ , ํ์ต์ ๊ธธ์ด๊ฐ ๊ธธ์ด์ก๋ค๋ ๊ฒ์ด๋ค. GPT-3์ in-context learning์ GPT-2์ ๋น์ทํ์ง๋ง, ๋ฌธ๋งฅ ์์์ ํ์ต์ ์ํ ๋ค์ํ ์ค์ ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ํ์๋ค. ๋ฐ๋ผ์, GPT-3๋ฅผ ํ๊ฐํ ์ ์๋ ๋ค์ํ ์ค์ ์ ๋ช ์์ ์ผ๋ก ์ค๋ช ํ๊ณ ๋์กฐํ์ฌ ์ด ์น์ ์ ์์ํ๋๋ก ํ๊ฒ ๋ค.
- Fine-Tuning$($FT$)$: task์ ๊ด๋ จ๋ supervised dataset์์ ํ์ตํจ์ผ๋ก์จ pre-trained model์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํจ. ์๋ง์ labeled example์ด ์ฌ์ฉ๋๊ณ , ์ฃผ๋ ์ฅ์ ์ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋ค๋ ๊ฒ์ด๋ค. ๋จ์ ์ ๋งค task์ ๋ํด ๊ฑฐ๋ํ ๋ฐ์ดํฐ์ ์ ํ์๋ก ํ๋ค๋ ์ , ๋ฐ์ดํฐ ๋ถํฌ ๋ฐ์ ์๋ ๋ฐ์ดํฐ์ ๋ํด ์ ์ข์ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ์ , ํ์ต ๋ฐ์ดํฐ์ ๊ฑฐ์ง๋ feature์ ๋จ์ฉํ ์๋ ์๋ค๋ ์ ๋ค์ด๋ค. ์ด๋ ์ ์ฌ์ ์ผ๋ก ์ธ๊ฐ์ ์ฑ๋ฅ๊ณผ ๋ถํ์ํ ๋น๊ต๋ฅผ ์ด๋ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ task-agnostic ์ฑ๋ฅ์ ์ง์คํ๊ธฐ ๋๋ฌธ์, GPT-3๋ฅผ fine-tuneํ์ง๋ ์์๋ค.
- Few-Shot$($FS$)$: ๋ชจ๋ธ์ ์กฐ๊ฑดํ๋ก ์ถ๋ก ์๊ฐ์ ์์ ์ ๋ํ ๋ช ๊ฐ์ง ์ค๋ช ์ ์ ๊ณตํ๋ ์ค์ ์ ์ฐธ์กฐํ๊ธฐ ์ํด ์ฌ์ฉํ์์ง๋ง, ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ ํ์ฉ๋์ง ์์๋ค. few-shot์ ์ฃผ๋ ์ฅ์ ์ task-specific data์ ๋ํ ํ์๊ฐ ์ค์ด๋ ๋ค๋ ์ ๊ณผ ํฌ์ง๋ง ์ข์ fine-tuning ๋ฐ์ดํฐ์ ์์ ์ง๋์น๊ฒ ์ข์ ๋ถํฌ๋ฅผ ํ์ตํ ๊ฐ๋ฅ์ฑ์ด ๊ฐ์ํ๋ค๋ ์ ์ด๋ค. ๋จ์ ์ few-shot ๋ชจ๋ธ์ SOTA์ ๋นํด์ ๋จ์ด์ง๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ๊ณผ ์์ง ๊ทธ๋๋ task-specific dataset์ด ํ์ํ๋ค๋ ์ ์ด๋ค.
- One-Shot$($1S$)$: few-shot๊ณผ ์ ์ฌํ์ง๋ง, ์ค์ง ํ๋์ ์ค๋ช ๋ง์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ด ๋ค๋ฅด๋ค. ๊ฒ๋ค๊ฐ task์ ์์ฐ์ด ์ค๋ช ๋ ์ฃผ์ด์ง๋ค. one, zero, few-shot์ ๊ตฌ๋ถํ๋ ์ด์ ๋ ์ด task๋ค์ด ์ฌ๋๊ณผ ๋ํํ๋ ๋ฐฉ์๊ณผ ๊ฐ์ฅ ๊ทผ์ ํ๊ฒ ์ผ์นํ๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋์๊ฒ ์๋ก์ด task๋ฅผ ์ํํ๊ฒ ํ๊ธฐ ์ํด์๋ task์ ๋ํ ์ค๋ช ํ๋๋ฉด ์ถฉ๋ถํ๋ค. ๋ฐ๋๋ก, ์ด๋ฌํ ์์์กฐ์ฐจ ์๊ฒ ๋๋ค๋ฉด task๋ฅผ ์ํํ๊ธฐ ํ๋ค์ด์ง๋ค.
- Zero-Shot$($0S$)$: one-shot๊ณผ ๋๊ฐ์ง๋ง, ์ด๋ ํ ์ค๋ช ๋ ํ๋ฝ๋์ง ์๊ณ , task๋ฅผ ์ค๋ช ํ๋ ์์ฐ์ด ์ค๋ช ๋ง์ด ์ฃผ์ด์ง ๋ฟ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ทน๊ฐ์ ํธ๋ฆฌํจ๊ณผ robustness, ํ์ ์๋ ์๊ด ๊ด๊ณ์ ํํผ๋ฅผ ์ ๊ณตํด์ฃผ์ง๋ง, ๊ฐ์ฅ ์ด๋ ค์ด ์ธํ ์ค ํ๋์ด๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ธ๊ฐ์ ์ ์ฅ์์๋ ์ด๋ ค์ธ ์ ์๋๋ฐ, ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ ํ ๋ฉด์์ ๊ฐ์ฅ ์ฌ๋์ด task๋ฅผ ์ํํ๋ ๋ฐฉ์๊ณผ ๊ฐ์ฅ ์ ์ฌํ๋ค๊ณ ๋ ๋ณผ ์ ์๋ค.
๋ ผ๋ฌธ์์๋ ๊ทธ ์ค์์๋ zero, one, few-shot์ ์ง์คํ์๋ค.
Model & Architecture
๋ชจ๋ธ์ architecture๋ GPT-2์ ๋๊ฐ์ architecture์ ์ฌ์ฉํ์๋ค. GPT-2์์ ์ค๋ช ๋ ์์ ๋ ์ด๊ธฐํ, ์ฌ์ ์ ๊ทํ ๋ฐ ๊ฐ์ญ์ ํ ํฐํ๋ฅผ ํฌํจํ์๋ค. ๋จ, Sparse Transformer์ ์ ์ฌํ๊ฒ Transformer์ ๋ ์ด์ด์์ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ๋ฐ์งํ๊ณ ๊ตญ๋ถ์ ์ผ๋ก ์ค๋ฌด๋ฌ๊ฐ ์๋ sparse attention ํจํด์ ์ฌ์ฉํ์๋ค. ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ ๋ค์์ ํ 1๊ณผ ๊ฐ์๋ฐ ์ด 8๊ฐ์ ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ์ GPT-3 ๋ชจ๋ธ์ ๋ง๋ค์๋ค. ๊ทธ ์ค์์ 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ GPT-3๊ฐ ์ง์ง GPT-3์ด๋ค.
์ ํ 1์ 8๊ฐ ๋ชจ๋ธ์ ํฌ๊ธฐ์ architecture์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. $n_{params}$๋ ์ด ํ์ต ํ๋ผ๋ฏธํฐ์ ์์ด๊ณ , $n_{layer}$์ ์ด ๋ ์ด์ด์ ์์ด๊ณ , $d_{model}$์ ๊ฐ bottleneck ๋ ์ด์ด์ unit์ ์์ด๊ณ , $d_{head}$๋ ๊ฐ attention head์ ์ฐจ์์ด๋ค.
Training Dataset
GPT-3์ ํ์ต์ ์ฌ์ฉ๋ ์ฃผ๋ ๋ฐ์ดํฐ์ ์ 'Common Crawl'์ด๋ค. ์ด ๋ฐ์ดํฐ์ ์ 1์กฐ ๊ฐ์ ๊ฐ๊น์ด ๋จ์ด๋ฅผ ํฌํจํ๊ณ ์๋๋ฐ, ์ด ์ ๋ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ด๋ฉด GPT-3์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ ํ์ต์ํค๋๋ฐ ์ถฉ๋ถํ๋ค. ํ์ง๋ง, ํํฐ๋ง๋์ง ์๊ฑฐ๋ ์ด์ง๋ง ํํฐ๋ง๋ Common Crawl ๋ฐ์ดํฐ์ ์ ๋์ฑ ์ ๊ตํ ๋ฐ์ดํฐ์ ๋ณด๋ค ๋จ์ด์ง๋ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๋ฐ๋ผ์, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 3 ๋จ๊ณ๋ฅผ ์ ์ฉํ์ฌ ๋ฐ์ดํฐ์ ์ ํ๊ท ์ ์ธ ํ๋ฆฌํฐ๋ฅผ ํฅ์์ํค๊ณ ์ ํ์๋ค.
- ๋ค์ํ ๊ณ ํ์ง ์ฐธ์กฐ corpora์์ ์ ์ฌ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก Common Crawl ๋ฒ์ ์ ๋ค์ด๋ก๋ํ๊ณ ํํฐ๋งํ๋ค.
- ๋ฌธ์ ๋ ๋ฒจ์์ fuzzy deduplication์ ๋ฐ์ดํฐ์ ์ ์ํํด์, ์ค๋ณต์ ๋ฐฉ์งํ๊ณ overfitting์ ์ ํํ ์ธก์ ์ผ๋ก ๋ณด๋ฅ๋ validation ์ธํธ์ ๋ฌด๊ฒฐ์ฑ์ ์ ์งํ๋ค.
- Common Crawl์ ๊ฐํํ๊ณ ๋ค์์ฑ์ ๋์ด๊ธฐ ์ํด ์๋ ค์ง ๊ณ ํ์ง ์ฐธ์กฐ corpora๊ฐ ๊ต์ก ๋ฏน์ค์ ์ถ๊ฐ๋์๋ค. ์ฌ๊ธฐ์๋ WebText ๋ฐ์ดํฐ์ ์ ํ์ฅ ๋ฒ์ , ๋ ๊ฐ์ ์ธํฐ๋ท ๊ธฐ๋ฐ ์ฑ ๋ง๋ญ์น$($Books1 ๋ฐ Books2$)$ ๋ฐ ์์ด Wikipedia๊ฐ ํฌํจ๋๋ค.
ํ์ต์ ์ฌ์ฉ๋ ์ด ๊ณ์ฐ๋์ ๋ค์์ ๊ทธ๋ฆผ 5์ ๊ฐ๋ค.
larger model์ ๋ฉ๋ชจ๋ฆฌ ์ผํธ ์์ด ํ์ต์ํค๊ธฐ ์ํด, ๊ฐ ํ๋ ฌ ๊ณฑ ๋ด์ ๋ชจ๋ธ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ๋คํธ์ํฌ ๊ณ์ธต ์ ์ฒด์ ๋ชจ๋ธ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ํผํฉ๋์ด ์ฌ์ฉ๋์๋ค. GPT-3 175B๋ฅผ pre-training ์ค์ ํ์ต์ํค๋๋ฐ ๋ช ์ฒ petaflop์ด ์ฌ์ฉ๋์๋ค.
GPT-3์ ๋ ผ๋ฌธ์ธ 'Language Models are Few-Shot Learners'์ ๋ํ ๋ฆฌ๋ทฐ๋ ์ฌ๊ธฐ๊น์ง์ด๋ค. ์คํ ๊ด๋ จ ๋ถ๋ถ์ ๊ถ๊ธํ ์ ์ด ์๋ค๋ฉด ์ง์ ๋ ผ๋ฌธ์ ์ฐพ์๋ณผ ์ ์๊ธธ ๋ฐ๋๋ค!
์ถ์ฒ
https://arxiv.org/abs/2005.14165
https://sh-tsang.medium.com/review-gpt-3-language-models-are-few-shot-learners-ff3e63da944d