The overview of this paper
์ด ๋ ผ๋ฌธ์์๋ LM์ zero-shot ํ์ต ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ ๊ฐ๋จํ method๋ฅผ ์ ์ํ์๋ค. ์ด ๊ฐ๋จํ method๋ instruction tuning์ผ๋ก instruction์ ํตํด ๋ฌ์ฌ๋ ๋ฐ์ดํฐ์ ์ ๋ชจ์์์ LM์ fine-tune ํ๋๋ฐ, unseen task์ ๋ํด zero-shot ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํจ๋ค. ๋ ผ๋ฌธ์์๋ 137B PLM์ ์ฌ์ฉํด์ 60๊ฐ์ NLP ๋ฐ์ดํฐ์ ์์ ์์ฐ์ด instruction template์ ํตํด instruction tune์ ํ์๋ค. ์ด instruction-tuned model์ FLAN์ด๋ผ ๋ถ๋ฅด๊ณ unseen task ์ ํ์์ ํ๊ฐํ์๋ค. FLAN์ ์์ ๋์ง ์์ counterpart์ ์ฑ๋ฅ์ ํฌ๊ฒ ์ํํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๊ณ , 25๊ฐ์ ๋ฐ์ดํฐ์ ์ค 20๊ฐ์ ๋ฐ์ดํฐ์ ์์ GPT-3 175B์ zero-shot์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ๋ํ ๋ช๋ช task์ ๋ํด์๋ few-shot GPT-3์ ํฐ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ablation study๋ instruction tuning์ด ์ฑ๊ณตํ ํต์ฌ์ ์ธ ์ด์ ๊ฐ fine-tuning ๋ฐ์ดํฐ์ ์ ์, ๋ชจ๋ธ ํฌ๊ธฐ, ์์ฐ์ด instruction์ ์๋ค๊ณ ๋ณด๊ณ ์๋ค.
Table of Contents
1. Introduction
2. FLAN: Instruction Tuning Improves Zero-shot Learning
2-1. Tasks & Templates
2-2. Classification with Options
2-3. Training Details
3. Results
4. Ablaion Studies & Further Analysis
5. Discussion
1. Introduction
GPT-3 ๊ฐ์ ๋๊ท๋ชจ LM์ few-shot learning์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ์ง๋ง, zero-shot ์์๋ ๋ ์ฑ๊ณต์ ์ธ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ํนํ reading comprehension๊ณผ question answering, NLI์์๋ ๋ ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด์ ๋ํ ์ด์ ๋ few-shot exemplar ์์ด๋ pre-training ๋ฐ์ดํฐ์ ํ์๊ณผ ์ ์ฌํ์ง ์์ prompt์์ ์ ์๋ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ด๋ค.
๋ ผ๋ฌธ์์๋ LLM์ zero-shot ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํ ๊ฐ๋จํ method๋ฅผ ์ ์ํ์๋ค. ์ด method๋ NLP task๊ฐ ์์ฐ์ด instruction์ ํตํด ๋ฌ์ฌ๋ ์ ์๋ค๋ ์ ์ ํ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ 137B ํ๋ผ๋ฏธํฐ์ PLM์ ์ฌ์ฉํ์ฌ instruction tuning์ ์ํํ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ก ๋์จ ๋ชจ๋ธ์ด FLAN, Finetuned Language Net ์ด๋ค.
unseen task์์ FLAN์ zero-shot ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด task ์ ํ์ ๋ฐ๋ผ NLP ๋ฐ์ดํฐ์ ์ ๋ถ๋ฅํด์ ๊ทธ๋ฃนํํ์๋ค. ใ ก ๋ค์์ ํ๊ฐํ๋ ค๋ task๋ฅผ ์ ์ธํ ๋ค๋ฅธ task์์ fine-tune ๋ cluster๋ฅผ ์ฌ์ฉํด์ zero-shot ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ๊ทธ๋ฆผ 1์ ์์๋ฅผ ๋ณด๋ฉด NLI๋ฅผ ์ํํ๋ FLAN์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๊ด๋ฒ์ํ ๋ค๋ฅธ NLP task์์ ๋ชจ๋ธ์ instruction tune ํ์๋ค. ๊ทธ๋ค์์ zero-shot ๋ฅ๋ ฅ์ ํ๊ฐํ์๋ค.
๋ ผ๋ฌธ์ ํ๊ฐ๋ FLAN 137B zero-shot ๋ชจ๋ธ์ด FPT-3 zero-shot & few-shot์ ํฐ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ ablation study์์๋ instruction tuning์ task cluster์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด unseen task์ ๋ํด์ ์ฑ๋ฅ์ ํฅ์ํ๊ณ instruction tuning์ ์ด์ต์ ์ค์ง ์ถฉ๋ถํ ๋ชจ๋ธ ๊ท๋ชจ์์๋ง ๋ํ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
intruction tuning์ ๊ฐ๋จํ method์ด๋ค. ๊ทธ๋ฆผ 2์ ๋ฌ์ฌ๋์ด ์๋ ๊ฒ์ฒ๋ผ ์ถ๋ก ์๊ฐ ํ ์คํธ ์ํธ์์ฉ์ ๋ํ LM์ ์๋ต์ ํฅ์์ํค๊ธฐ ์ํ fine-tuning์ ์ฌ์ฉํจ์ผ๋ก์จ pretrain-finetune๊ณผ prompting ํจ๋ฌ๋ค์ ๋์ ๋งค๋ ฅ์ ์ธ ๋ฉด์ ํผํฉํ์๋ค. ์คํ์ ๊ฒฐ๊ณผ๋ instruction์ ํตํด ์์ํ๊ฒ ๋ฌ์ฌ๋ task๋ฅผ ์ํํ๊ธฐ ์ํ LM์ ์ ๋งํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ๋ค.
2. FLAN: Instruction Tuning Improves Zero-shot Learning
instruction tuning์ ๋๊ธฐ๋ NLP instruction์ ์๋ตํ๊ธฐ ์ํ LM์ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๊ฒ์ด๋ค. instruction์ ํตํด ์ค๋ช ๋ task๋ฅผ ์ํํ๊ธฐ ์ํด LM์ ๊ฐ๋ฅด์น๊ธฐ ์ํ supervision์ ์ฌ์ฉํจ์ผ๋ก์จ LM์ instruction์ ๋ฐ๋ฅด๊ณ unseen task์ ๋ํด ์ํํ๊ธฐ ์ํด ํ์ต๋๋ค. unseen task์์์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ task ์ ํ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ ๊ทธ๋ฃนํํ๊ณ ๋๋จธ์ง ๋ชจ๋ cluster์ ๋ํ instruction tuning ๋์ ํ๊ฐ๋ฅผ ์ํด ๊ฐ task cluster๋ฅผ ์ ์งํ๋ค.
2-1. Tasks & Templates
๋ฐ๋ฐ๋ฅ๋ถํฐ ๋ง์ task๋ฅผ ์ฌ์ฉํ์ฌ instruction tuning ๋ฐ์ดํฐ์ ์ ๋ง๋๋ ๊ฒ์ ๋ฆฌ์์ค๊ฐ ๋ง์ด ํ์ํ๊ธฐ ๋๋ฌธ์, ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ์ instruction ํ์์ผ๋ก ๋ณํ์์ผฐ๋ค. ๋ ผ๋ฌธ์์๋ NLU์ NLG๋ฅผ ํฌํจํ๋ 62๊ฐ์ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ์ข ํฉํ์ฌ ํ๋์ mixture๋ฅผ ๋ง๋ค์๋ค. ๊ทธ๋ฆผ 3์ ์ด๋ฌํ ๋ฐ์ดํฐ์ ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ 12๊ฐ์ task cluster๋ก ์นดํ ๊ณ ๋ฆฌํ๋๋ค. ์ฃผ์ด์ง cluster์ ๋ฐ์ดํฐ์ ์ ๋น์ทํ task ์ ํ์ด๋ค.
๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด ์๋์ผ๋ก 10๊ฐ์ ๋ ํนํ templater์ ๊ตฌ์ฑํ์๋ค. ์ด 10๊ฐ์ template์ original task๋ฅผ ๋ฌ์ฌํ์ง๋ง, ๋ค์์ฑ์ ์ํด ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ task์ ๊ด๋ จ ์๋ 3๊ฐ์ template์ ํฌํจํ๊ณ ์๋ค. ์๋ฅผ ๋ค์ด sentiment classification์ ๋ํด ์ํ ๋ฆฌ๋ทฐ๋ฅผ ์์ฑ์ ๋ฌผ์ด๋ณด๋ template๋ ํฌํจํ์๋ค. ๊ทธ๋ค์์ ๋ ผ๋ฌธ์์๋ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ mixture์์ PLM์ ๋ฐ์ดํฐ์ ์ ๋ํด ๋๋ค ํ๊ฒ ์ ํ๋ instruction template์ ํตํด ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ example์ ํฌ๋งทํ์ฌ instruction tune ํ์๋ค. ๊ทธ๋ฆผ 4๋ NLI ๋ฐ์ดํฐ์ ์ ๋ํ ๋ค์ํ instruction template์ ๋ณด์ฌ์ค๋ค.
2-2. Classification with Options
์ฃผ์ด์ง task์ ๋ํ ์ถ๋ ฅ ๊ณต๊ฐ์ ์ฌ๋ฌ class ๋๋ free text ์ค ํ๋์ด๋ค. FLAN์ decoder-only LM์ instruction-tuned ๋ฒ์ ์ด๊ธฐ ๋๋ฌธ์, ์์ฐ์ ์ผ๋ก free text๋ก ์๋ตํด์ generation task๋ฅผ ์ํด ์ถ๊ฐ์ ์ธ ์์ ์ด ํ์ํ์ง ์๋ค.
๋ถ๋ฅ task์ ๋ํด์ ์ด์ ์ ์ฐ๊ตฌ๋ค์ rank classification ๋ฐฉ์์ ์ฌ์ฉํ์๋ค. rank classification์ ๊ทธ๋ด๋ฏํด ๋ณด์ด์ง๋ง ๋ต๋ณ์ ํ๋ฅ mass๊ฐ ๊ฐ ๋ต๋ณ์ ๋งํ๋ ๋ฐฉ์ ๊ฐ์ ๋ฐ๋์งํ์ง ์์ ๋ถํฌ๋ฅผ ๊ฐ์ง ์ ์๋ค๋ ์ ์์ ๋ถ์์ ํ๋ค("์"๋ผ๊ณ ๋งํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ด ๋ง์ผ๋ฉด "์"์ ํ ๋น๋ ํ๋ฅ mass๊ฐ ๋ฎ์์ง ์ ์๋ค.). ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ options suffix๋ฅผ ํฌํจํ์๋ค. ์ด ๋ฐฉ๋ฒ์ task์ ๋ํ ์ถ๋ ฅ ํด๋์ค์ ๋ฆฌ์คํธ์ ํจ๊ป ๋ถ๋ฅ task์ ๋ง์ง๋ง์ 'OPTION' ํ ํฐ์ ์ถ๊ฐํ๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ถ๋ฅ task์ ์๋ตํ ๋ ์ด๋ค ์ ํ์ด ํ์ํ ์ง ๋ชจ๋ธ์ด ์ ์ ์๊ฒ ํด ์ค๋ค. ์ต์ ์ ์ฌ์ฉ์ ๋ํ ์์๋ ๊ทธ๋ฆผ 1์ ๋ํ๋ ์๋ค.
2-3. Training Details
Model architecture & pre-training. LaMDA-PT 137B ๋ชจ๋ธ์ ์ฌ์ฉํ์๊ณ , ์น ๋ฌธ์ ๋ชจ์์์ pre-train ํ์๋ค. LaMDA-PT ๋ชจ๋ธ์ dense L-to-R decoder-only Transformer LM์ด๋ค.
Instruction tuning procedure. FLAN์ LaMDA-PT์ instruction-tuned ๋ฒ์ ์ด๋ค. ๋ ผ๋ฌธ์ instruction tuning ํ์ดํ๋ผ์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ํฉ์น๊ณ ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ๋๋ค ํ๊ฒ ์ํ๋งํ๋ค. ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์ ๋ฐธ๋ฐ์ค๋ฅผ ๋ง์ถ๊ธฐ ์ํด ๊ฐ ๋ฐ์ดํฐ์ ์์ 30k ๊ฐ์ training example๋ก ์ ํํ๊ณ example-proportional mixing scheme์ ๋ฐ๋๋ค.
3. Results
๋ ผ๋ฌธ์์๋ FLAN์ natural language inference(NLI), reading comprehension, closed-book QA, translation, commonsense reasoning, coreference resolution, struct-to-text์์ ํ๊ฐํ์๋ค. unseen task์ ๋ํด์ ํ๊ฐ๋ฅผ ์งํํ๊ธฐ ์ํด 2-1์์ ์ค๋ช ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์๋ค. ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ชจ๋ template์์ ์ฑ๋ฅ์ ํ๊ท ์ ํ๊ฐํ์๋ค. dev set์ ๋๋๋ก ์๋ prompt engineering์ ์ฌ์ฉํ ์ ์์ผ๋ฏ๋ก ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํด ์ต๊ณ ์ dev set ์ฑ๋ฅ์ ๊ฐ์ง template์ ์ฌ์ฉํด์ test set ์ฑ๋ฅ๋ ์ป์ ์ ์์๋ค.
๋น๊ต๋ฅผ ์ํด GPT-3์ ๋๊ฐ์ prompt๋ฅผ ์ฌ์ฉํ๋ LaMDA-PT์ ๋ํ zero-shot & few-shot ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ์๋ค. ์ด baseline์ instruction tuning์ด ์ผ๋ง๋ ๋์ ๋๋์ง์ ๋ํ ์ง์ ์ ์ธ ablation์ ์ ๊ณตํด ์ค๋ค. intruction tuning์ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ LaMDA-PT๋ฅผ ํฅ์์์ผฐ๋ค.
๋ ผ๋ฌธ์์๋ ๋ํ GPT-3 175B์ GLaM 64B/64E์ zero-shot ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ต๊ณ ์ dev template์ ์ฌ์ฉํ ๊ฒฐ๊ณผ, zero-shot FLAN์ 25๊ฐ์ ๋ฐ์ดํฐ์ ์ค 20๊ฐ์ ๋ฐ์ดํฐ์ ์์ zero-shot GPT-3์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ , 25๊ฐ ์ค 10๊ฐ์ ๋ฐ์ดํฐ์ ์์๋ GPT-3์ few-shot ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ๋ํ ์ต๊ณ ์ dev template์ ์ฌ์ฉํ zero-shot FLAN์ 19๊ฐ์ ๋ฐ์ดํฐ์ ์ค 13๊ฐ์ ๋ฐ์ดํฐ์ ์์ zero-shot GLaM์ ๋ฅ๊ฐํ์๊ณ , 19๊ฐ์ ๋ฐ์ดํฐ์ ์ค 10๊ฐ์ ๋ฐ์ดํฐ์ ์์ one-shot GLaM์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
์ ๋ฐ์ ์ผ๋ก instruction tuning์ด task์ ๋ํด ๋ณด์ฌ์ค ๋ชจ์ต์ ๋ค์๊ณผ ๊ฐ๋ค. ๋ค์์ ๊ทธ๋ฆผ 5์์๋ NLI, reading comprehension, closed-book QA, translation์์์ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๊ณ ์๋ค.
- very effective: instruction์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์ธ์ดํ๋ task (ex. NLI, QA, translation, struct-to-text)
- less effective: instruction์ด ๋์ฒด๋ก ๋ถํ์ํ language modeling์ผ๋ก ๊ณ ์๋ task (ex. commonsense reasoning, coreference resolution)
Natural Language Inference(NLI). FLAN์ ๋ชจ๋ baseline์ ํฐ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. FLAN์์๋ NLI๋ฅผ ๋์ฑ ์์ฐ์ค๋ฌ์ด ์ง๋ฌธ์ผ๋ก ํํํด์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Reading Comprehension. MultiRC & OBQA์์๋ FLAN์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , BoolQ์์๋ GPT-3์ ํฐ ๋ง์ง์ผ๋ก ๋ฅ๊ฐํ์ง๋ง, LaMDA-PT๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Closed-book QA. FLAN์ 4๊ฐ์ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ GPT-3์ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. GLaM๊ณผ ๋น๊ตํ๋ฉด, ARC-e์ ARC-c ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , NQ์ TQA์์๋ ์ด์ง ๋จ์ด์ง๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค.
Translation. ๋ชจ๋ 6๊ฐ์ ํ๊ฐ์์ zero-shot GPT-3๋ฅผ ๋ฅ๊ฐํ์์ง๋ง, few-shot GPT-3 ๋ณด๋ค๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. GPT-3์ ์ ์ฌํ๊ฒ FLAN์ ์์ด๋ก ๋ฒ์ญํ ๋๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, ๋ค๋ฅธ ์ธ์ด๋ก ๋ฒ์ญํ ๋๋ ์ฝํ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ ์์ด sentencepiece tokenizer๋ฅผ ์ฌ์ฉํ๊ณ pre-training ๋ฐ์ดํฐ์ ๋๋ถ๋ถ์ด ์์ด๋ก ์ด๋ฃจ์ด์ ธ ์๊ธฐ ๋๋ฌธ์ด๋ค.
Additional Tasks. ์์ task cluster์์ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ์ง๋ง, instruction tuning์ ํ ๊ฐ์ง ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋๋ฐ, ์ด๋ language modeling task์ ๋ํด์๋ ์ฑ๋ฅ์ ํฅ์์ํค์ง ๋ชปํ๋ค๋ ์ ์ด๋ค. ๊ทธ๋์ 7๊ฐ์ commonsense reasoning๊ณผ coreference resolution task์ ๋ํด ํ๊ฐ๋ฅผ ์งํํ ๊ฒฐ๊ณผ, FLAN์ ๊ฒจ์ฐ 3๊ฐ์ task์์๋ง LaMDA-PT๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฌํ ์ข์ง ์์ ๊ฒฐ๊ณผ๋ downstream task๊ฐ ์ผ๋ฐ์ ์ธ language modeling pre-training objective์ ๋๊ฐ์ ๋ instruction tuning์ ์ ์ฉํ์ง ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
4. Ablation Studies & Further Analysis
4-1. Number of Instruction Tuning Clusters
๋ ผ๋ฌธ์ ํต์ฌ ์ง๋ฌธ์ ์ด๋ป๊ฒ instruction tuning์ด unseen task์ ๋ํด ๋ชจ๋ธ์ zero-shot ์ฑ๋ฅ์ ํฅ์์ํค๋์ง์ด๋ค. ์ฒซ ๋ฒ์งธ ablation์์๋ instruction tuning์์ ์ฌ์ฉ๋๋ cluster์ task์ ์์ ์ํด ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ์ํฅ์ ๋ฐ๋์ง ๋ถ์ํ์๋ค.
๊ทธ๋ฆผ 6์ ์ด๋ฌํ ablation์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ์์ํ ๊ฒ์ฒ๋ผ, ์ถ๊ฐ์ vluster์ task๋ฅผ instructiuon tuning์ ์ถ๊ฐํจ์ ๋ฐ๋ผ 3๊ฐ์ held-out cluster์ ๋ํ ํ๊ท ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ์ ์ ์์๋ค. ์ด๋ ์ ์๋ instruction tuning์ด ์๋ก์ด task์์ zero-shot ์ฑ๋ฅ์ ์ด์ต์ ์ค๋ค๋ ๊ฒ์ ์๋ ค์ค๋ค. ๊ฒ๋ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด cluster๊ฐ ์ถ๊ฐ๋ ๋๋ง๋ค ์ฑ๋ฅ ํฅ์์ด ๋ฉ์ถ์ง ์๊ณ , instruction tuning์ ๋ ๋ง์ cluster๊ฐ ์ถ๊ฐ๋จ์ ๋ฐ๋ผ ์ฑ๋ฅ์ ๊ณ์ ์์นํ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค.
4-2. Scaling Laws
instruction tuning์ ์ด๋์ ๋ชจ๋ธ์ ๊ท๋ชจ์ ์ด๋ค ์ํฅ์ ๋ฐ์๊น?๋ผ๋ ์๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋ค๋ฅด๊ฒ ํ์ฌ ablation์ ์งํํ์๋ค. instruction tuning์ ํจ๊ณผ๋ฅผ ํ์ ํ๊ธฐ ์ํด 422M, 2B, 8B, 68B, 137B ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ๋ชจ๋ธ์์ ํ๊ฐ๋ฅผ ์งํํ์๋ค.
๊ทธ๋ฆผ 7์ ablation์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. 100B ํ๋ผ๋ฏธํฐ ๊ทผ์ฒ์ ๋ชจ๋ธ์์ instruction tuning์ held-out task์ ์ฑ๋ฅ์ ์๋นํ ํฅ์์์ผฐ๋ค. ํ์ง๋ง, smaller model์์๋ held-out task์ ์ฑ๋ฅ์ ์๋นํ ํด์น๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด์ ๋ํ ์ด์ ๋ ์์ ๋ชจ๋ธ์ ๋ํด์๋ instruction tuning ์ค์ 40๊ฐ์ task๋ฅผ ํ์ตํ๋ ๊ฒ๋ง์ผ๋ก๋ ๋ชจ๋ธ์ ์์ฉ๋์ ๋ค ์ฑ์ด๋ค. ์ด๋ ๋ชจ๋ธ์ด ์๋ก์ด task์ ๋ํด์ ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ฒ ๋ง๋ ๋ค. ์ด๋ฌํ ์ค๋ช ์ ์ํ๋ฉด ๊ฑฐ๋ ๋ชจ๋ธ์ ๋ํด์ instruction tuning์ ๋ชจ๋ธ์ ์์ฉ๋์ ์ฑ์ฐ์ง๋ง ๋ชจ๋ธ์๊ฒ ์ด๋ป๊ฒ instruction์ ๋ฐ๋ฅด๊ฒ ํ ์ง ๋ํ ๊ฐ๋ฅด์น๋ค. ์ด๋ ๋จ์ ์์ฉ๋์ผ๋ก ์๋ก์ด task์ ๋ํด ์ผ๋ฐํํ๊ฒ ํ๋ฝํด ์ค๋ค.
4-3. Role of Instructions
fine-tuning ์ค์ instruction์ ์ญํ ์ ๋ํด ์ฐ๊ตฌํ์๋ค. instruction์ด ์๋ ๋ ๊ฐ์ง ์ ์ ์ ๊ณ ๋ คํ์๋ค. ์ด ์ ์ ๋ค๊ณผ FLAN์ fine-tuning ํ๋ก์์ ๋ฅผ ๋น๊ตํ์๋ค.
- no template: ์ ๋ ฅ & ์ถ๋ ฅ๋ง ๋ชจ๋ธ์๊ฒ ์ฃผ์ด์ง
- dataset name: task & ๋ฐ์ดํฐ์ ์ ์ด๋ฆ์ ๊ฐ๊ฐ์ ์ ๋ ฅ ์์ ๋ถ์
๊ทธ๋ฆผ 8์ ์ด์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ ์ ์ ์ FLAN๋ณด๋ค ํจ์ฌ ๋ ๋จ์ด์ง๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ instruction์ ํ์ฉํ์ฌ ํ์ตํ๋ ๊ฒ์ด zero-shot ์ฑ๋ฅ์ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
4-4. Instruction Tuning Facilitates Prompt Tuning
๋ง์ฝ FLAN์ด NLP task๋ฅผ ์ํํ๊ธฐ ์ํด ๋์ฑ ๋ง์ ์ ์์๋ฃ๊ฒ ๋๋ค๋ฉด soft prompt๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๋ก ์ ์ํํ ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค. ์ถ๊ฐ์ ๋ถ์์ผ๋ก, ๊ฐ SuperGLUE task์ ๋ํ ์ฐ์ prompt๋ฅผ ํ์ต์์ผฐ๋ค.
๊ทธ๋ฆผ 9๋ ์ด๋ฌํ prompt tuning์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ๋ชจ๋ ์๋๋ฆฌ์ค์์ prompt tuning์ LaMDA-PT๋ณด๋ค FLAN์์ ๋ ์ข์ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ํนํ low-resource ํ๊ฒฝ์์ ๋ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค.
5. Discussion
๋ ผ๋ฌธ์์๋ zero-shot prompting์ ๊ฐ๋จํ ์ง๋ฌธ์ ๋ํด ํ๊ตฌํ์๋ค: instruction์ผ๋ก ํํ๋ task์ ๋ชจ์์์ ๋ชจ๋ธ์ fine-tune ํ๋ ๊ฑด unseen task์ ๋ํ ์ฑ๋ฅ์ ํฅ์์ํฌ๊น? ๋ ผ๋ฌธ์์๋ pretrain-finetune๊ณผ prompt ํจ๋ฌ๋ค์์ ๋งค๋ ฅ์ ์ธ ์ธก๋ฉด์ ๊ฒฐํฉํ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ธ instruction tuning์ ํตํด ์ด ์ง๋ฌธ์ ๋๋ตํ์๋ค. ๋ ผ๋ฌธ์ instruction-tuned ๋ชจ๋ธ์ธ FLAN์ untuned model์ ๋ํ ์ฑ๋ฅ์ ํฅ์์์ผฐ๊ณ , ํ๊ฐํ ๋๋ถ๋ถ์ task์์ zero-shot GPT-3์ ๋ฅ๊ฐํ์๋ค. ablation study๋ instruction tuning task cluster์ ์์ ๋ฐ๋ผ์ unseen task์ ๋ํ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๊ณ , ํฅ๋ฏธ๋กญ๊ฒ๋ instruction tuning์ผ๋ก๋ถํฐ์ ์ฑ๋ฅ ํฅ์์ ์ถฉ๋ถํ ๊ท๋ชจ์ ๋ชจ๋ธ์์๋ง ๋ํ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๊ฒ๋ค๊ฐ instruction tuning์ few-shot prompting๊ณผ prompt tuning ๊ฐ์ ๋ค๋ฅธ prompting method๋ค๊ณผ ํฉ์ณ์ง ์ ์๋ค.
๋๊ท๋ชจ LM์ specialist model๊ณผ generalist model ๊ฐ์ tradeoff๊ฐ ์์์ ๋ฐ๊ฒฌํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ ผ๋ฌธ์ ์ฐ๊ตฌ๊ฐ ์ ์ฌ์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์๋ค๊ณ ์๊ฐํ์๋ค. cross-task ์ผ๋ฐํ์์ instruction tuning์ ๊ธ์ ์ ์ธ ํจ๊ณผ๋ general language modeling์ ๋ํด task-specific training์ด ์ํธ ๋ณด์์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
์ด ๋ ผ๋ฌธ์ ํ๊ณ์ ์ task๋ฅผ cluster์ ํ ๋นํ๋ ๋ฐ ์ด๋ ์ ๋ ์ฃผ๊ด์ฑ์ด ์๊ณ , ๋น๊ต์ ์งง์ ํ ๋ฌธ์ฅ์ instruction ๋ง์ ์ฌ์ฉํ๋ค๋ ์ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ํ๊ฐ ์์๋ ํ๊ณ์ ์ด ์์๋๋ฐ, ๋ชจ๋ธ์ pre-training ๋ฐ์ดํฐ๋ ์น ๋ฌธ์๋ฅผ ํฌํจํ๋๋ฐ ์ฌ๊ธฐ์๋ ๋ฐ์ดํฐ์ ์ค๋ฒ๋ฉ์ด ์๋๋ฐ, ์ด๊ฒ์ด ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ํ์ ํ์ง ๋ชปํ๋ค. ๋ง์ง๋ง์ผ๋ก FLAN 137B์ ๊ท๋ชจ๋ ์คํํ๋๋ฐ ๋ง์ ๋น์ฉ์ ํ์๋ก ํ๋ค.
์ถ์ฒ
https://arxiv.org/abs/2109.01652