The overview of this paper
Large Language Model(LLM)์ ๋ค์ํ task ์ธํธ์์ ์ ์ ํ zero-shot ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด๋ LM์ pre-training์ ๋ดํฌ๋์ด ์๋ multitask learning์ ๊ฒฐ๊ณผ๋ผ๊ณ ๊ฐ์ ํ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ๊ณผ์ฐ ๋ช ์์ multitask learning์ ์ํด zero-shot ์ผ๋ฐํ๊ฐ ์ง์ ์ ๋๋ ์ ์์๊น? ์ด ์ง๋ฌธ์ ํ ์คํธํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์์ฐ์ด task๋ฅผ ์ฌ๋์ด ์ฝ์ ์ ์๋ ํ์์ prompt๋ก ์์ฝ๊ฒ ๋งคํํ๊ธฐ ์ํ ์์คํ ์ ๊ฐ๋ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ค์ํ ์๋ฉ์ด ์ฌ์ฉ๋๋ ๊ฐ๊ฐ์ ๋ค์ํ prompt๊ฐ ์๋ supervised ๋ฐ์ดํฐ์ ์ ๊ฑฐ๋ํ ์ธํธ๋ฅผ ๋ณํํ์๋ค. ์ด๋ฌํ prompt ๋ฐ์ดํฐ์ ์ ์ฑ๊ณต์ ์ผ๋ก task๋ฅผ ์ํํ๋๋ก ํ๊ฒ ํด์ฃผ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๋ฒค์น๋งํนํ๊ฒ ํ๋ฝํด ์ค๋ค. ๋ ผ๋ฌธ์์๋ pre-trained encoder-decoder ๋ชจ๋ธ์ ๋ค์ํ task์ multitask ํผํฉ์ ์ฌ์ฉํด fine-tune ํ์๋ค. ์ด๋ ๊ฒ ํด์ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์จ ๋ชจ๋ธ์ ๋ค์ํ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์์ ๊ฐ๋ ฅํ zero-shot ์ฑ๋ฅ์ ์ป์ ์ ์์๊ณ , 16๋ฐฐ ์ด์ ํฐ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค.
Table of Contents
1. Introduction
2. Measuring Generalization to Held-out Tasks
3. A Unified Prompt Format
4. Experimental Setup
5. Results
5-1. Generalization to Held-out Tasks
5-2. Prompt Robustness
6. Discussion
1. Introduction
์ต๊ทผ์ ๋ชจ๋ธ๋ค์ ์๋ก์ด task์ ๋ํด ์ ์ ํ zero-shot ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์คฌ๋ค. ๋ช ์์ ์ผ๋ก ํ์ตํ์ง ์์ ์๋ก์ด task์ ๋ํด์๋ ๋น๊ต์ ์ ์ํํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ์ด์ ๋ํ ์ํฅ๋ ฅ ์๋ ๊ฐ์ค์ LLM์ด ์๋ก์ด task์ ์ผ๋ฐํ๋๋ ๊ฒ์ multitask learning์ ๋ดํฌ๋ ํ๋ก์ธ์ค ๋๋ฌธ์ด๋ผ๋ ๊ฒ์ด๋ค. ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํ ํ์ต์ ๋ถ์ฐ๋ฌผ๋ก LM์ pre-training corpus์ ํฌํจ๋ ์์์ task์ ํผํฉ์์ ํ์ตํด์ผ ํ๋ค. ์ด๊ฒ์ LLM์๊ฒ ์์ฐ์ด prompt๋ฅผ ์ฌ์ฉํ์ฌ ํํ๋๋ held-out task์ ๋ํด์ ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ์ค๋ค. ํ์ง๋ง, ์ด๋ฌํ ๋ฅ๋ ฅ์ ์ถฉ๋ถํ ํฐ ๋ชจ๋ธ์ ํ์๋ก ํ๊ณ prompt์ ์๋ฉ์ ๋ฏผ๊ฐํ๋ค.
๋ํ ์ด multitask learning์ด ์ค์ ๋ก ์ผ๋ง๋ ๋ดํฌ๋์ด ์๋์ง๋ ๋ฏธํด๊ฒฐ ์ง๋ฌธ์ด๋ค. LM์ pre-training corpora๊ฐ ์ฃผ์ด์ง๋ฉด ์ด ์์๋ ๋ช๋ช NLP task๊ฐ ๋ช ์์ ์ผ๋ก ๋ํ๋ ์์ ์ ์๋ค. ์๋ฅผ ๋ค์ด ์ฌ์ํ ์ง๋ฌธ๊ณผ ๋๋ต์ ๋ฆฌ์คํธ๊ฐ ํฌํจ๋์ด ์๋ ์น์ฌ์ดํธ๊ฐ ๋ง์ด ์๋๋ฐ, ์ด ๋ฐ์ดํฐ๋ค์ closed-book question answering์ task์ ๋ํ ์ ํํ supervised training data์ด๋ค. ๋ ผ๋ฌธ์์๋ pre-training์์ ์ด๋ฌํ multitask supervision์ zero-shot ์ผ๋ฐํ์์ ํฐ ์ญํ ์ ๋งก๋๋ค ๋ผ๋ ๊ฐ์ ์ ์ธ์ ๋ค.
์ด ๋ ผ๋ฌธ์์๋ supervised & multitask ๋ฐฉ์์์ ๋ช ์์ ์ผ๋ก LM์ ํ์ต์ํค๋๋ฐ ์ง์คํ์๋ค.
- Approach: ์์ฐ์ด prompt์ ๋ช ์ ๋์ด ์๋ ์๋ก ๋ค๋ฅธ task์ ๊ฑฐ๋ํ ์ธํธ๋ก ๊ตฌ์ฑ๋์ด ์๋ training mixture ์ฌ์ฉ
- Goal: held-out task์ ๋ํด ๋๊ท๋ชจ ์ค์ผ์ผ ํ์ ์์ด ๋ ๋ซ๊ฒ ์ผ๋ฐํํ๋ ๋ชจ๋ธ / prompt์ ์๋ฉ ์ ํ์ ๋์ฑ robust ํ ๋ชจ๋ธ
์์ฐ์ด task์ ๊ฑฐ๋ํ ์ธํธ๋ฅผ prompt ํ์์ผ๋ก ๋ณํํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์ ๋ํด ๊ฐ๋จํ template language๋ฅผ ์ฌ์ฉํ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ๋น ๋ค์ํ prompt๊ฐ ์๋ ๊ฑฐ๋ํ multitask mixture์ ๋ชจ์์ ์ฉ์ดํ๊ฒ ํด์ฃผ๋ ๊ณต๊ณต contributor๋ก๋ถํฐ prompt๋ฅผ ์์งํ๊ธฐ ์ํ ์ธํฐํ์ด์ค๋ฅผ ๊ฐ๋ฐํ์๋ค. ๊ทธ๋ค์์ T5 encoder-decoder ๋ชจ๋ธ์ ๋ณํ์ task์ ์๋ธ์ ์์ ํ์ต์ํค๊ณ ๋ชจ๋ธ์ด ํ์ตํ์ง ์์ task & prompt์์ ํ๊ฐํ์๋ค.
๋ ผ๋ฌธ์ ์คํ์์๋ ๋ ๊ฐ์ง ์ง๋ฌธ์ ๋ํด์ ์ฐ๊ตฌํ์๋ค.
- 1st question: multitask prompted training์ held-out task์ ๋ํด ์ผ๋ฐํ๋ฅผ ํฅ์์ํฌ๊น?
- 2nd question: ๊ด๋ฒ์ํ prompt์์์ ํ์ต์ prompt wording์ ๋ํ robustness๋ฅผ ํฅ์์ํฌ๊น?
์ด ์ง๋ฌธ๋ค์ ๋ํ ๋๋ต์ ๋ค์๊ณผ ๊ฐ์๋ค.
- 1st answer: multitask training์ zero-shot task ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํจ. GPT-3์ ๋นํด 16๋ฐฐ ์์ ์ฌ์ด์ฆ๋ก๋ ๋น์ทํ๊ฑฐ๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค.
- 2nd answer: ๋ ๋ง์ prompt์์์ ํ์ต์ ์ค๊ฐ๊ฐ์ ํฅ์์ํด & ์ฑ๋ฅ ๋ณ๋์ฑ์ ์ค์. ๊ด๋ฒ์ํ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ๋์จ prompt ์์์ ํ์ต์ ์ค๊ฐ๊ฐ์ ํฅ์์ํด but! ์ฑ๋ฅ ๋ณ๋์ฑ์ ์ค์ด๋ค์ง ์์.
2. Measuring Generalization to Held-out Tasks
๋ ผ๋ฌธ์์๋ NLP ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ณธ ๋ถํ ์ task๋ก ๊ฐ์ ํ์ฌ ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค. ์ด๋ฌํ 'task'๋ฅผ ํน์ ๋ฐ์ดํฐ์ ๊ทธ๋ฃน์ ์ํด ํ ์คํธ๋๋ NLP ๋ฅ๋ ฅ์ผ๋ก ์ธ๊ธํ์๋ค. ์๋ก์ด task์ ๋ํด zero-shot ์ผ๋ฐํ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ task์ ์๋ธ์ ์์ ํ์ตํ๊ณ task์ held-out ๊ทธ๋ฃน์์ ํ๊ฐํ์๋ค.
๋ถํํ๊ฒ๋, NLP task ์นดํ ๊ณ ๋ฆฌํ๋ ๋ถ๋ถ๋ช ํ๋ค. ์๋ฅผ ๋ค์ด, ๋ง์ ๋ฐ์ดํฐ์ ์ ์์์ ํ๊ฐํ๊ณ , ๋ช ๊ฐ์ multitask ์์ ๋ค์ ์์์ ๋ ๋ฆฝ task๋ผ๊ณ ์ ์ํ๋ค. ํ์ง๋ง, ์์ ๋ฐ์ดํฐ์ ์ ๊ด๋ฒ์ํ๊ฒ ๋๋ค. ๋ ผ๋ฌธ์ ํ์ต๊ณผ ํ๊ฐ mixture๋ ๊ทธ๋ฆผ 2์ ๊ฐ๋ค.
zero-shot ์ผ๋ฐํ ํ ์คํธ๋ฅผ ํ๊ธฐ ์ํด์ 4๊ฐ task์ ๋ชจ๋ ๊ตฌ์ฑ ๋ฐ์ดํฐ์ ์ ๋ํด์ ์งํํ์๋ค: natural language inference(NLI), coreference resolution, sentence completion, word sense disambiguation. ๋ ผ๋ฌธ์์๋ NLI๋ฅผ held-out task๋ก ์ ํํ๋๋ฐ ์๋ํ๋ฉด ์ฌ๋๋ NLI์ ๋ํด zero-shot ์ผ๋ฐํ๋ฅผ ํ๊ธฐ ๋๋ฌธ์ด๋ค: ๋๋ถ๋ถ์ ์ฌ๋๋ค์ ์ ์ ๋ฌธ์ฅ์ด ๊ฐ์ค ๋ฌธ์ฅ์ ์๋ฐํ๋์ง ๋ชจ์ํ๋์ง ๋ช ์์ ์ผ๋ก ํ์ตํ์ง ์์๋ ๋ถ๋ฅ ๊ฐ๋ฅํ๋ค. ์ด์ ๋๊ฐ์ ์ด์ ๋ก ๋ ผ๋ฌธ์์๋ coreference resolution & word sense disambiguation ๋ํ ์ํํ์๋ค. ์ถ๊ฐ์ ์ผ๋ก sentence completion์ NLI์ ๋๋ฌด๋๋ ์ ์ฌํ๊ธฐ ๋๋ฌธ์ ์ํํ์๋ค.
๋ง์ง๋ง์ผ๋ก, ๋ ผ๋ฌธ์์๋ BIG-bench๋ก๋ถํฐ ๋์จ ๋ฐ์ดํฐ์ ์ ์๋ธ์ ์ ๋ํด์ ์ถ๊ฐ์ ์ผ๋ก ํ๊ฐํ์๋ค. ์ด BIG-bench๋ LLM์ ๋ฅ๋ ฅ์ ํ ์คํธํ๊ธฐ ์ํ ์ด๋ ค์ด task์ ๋ค์ํ ๋ชจ์์ ์์ฑํ๋ ๋ฒค์น๋งํฌ์ด๋ค. BIG-bench์ผ๋ก๋ถํฐ์ ๋ชจ๋ task๋ training์์ ์ํ๋๋ ์๋ก์ด task์ด๋ค.
3. A Unified Prompt Format
zero-shot ์คํ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด ๋ชจ๋ธ์ ์ฃผ์ด์ง๋ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ์์ฐ์ด ํ์์ผ๋ก promptํ ํ์๋ค. prompt์ ๊ฑฐ๋ํ ๋ชจ์ ์์ฑ์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ templating language์ ๋ค์ํ ๋ฐ์ดํฐ์ ์ prompt๋ก ์ฝ๊ฒ ๋ณํํด ์ฃผ๋ ์์ฉ์ ๊ฐ๋ฐํ์๋ค. ๋ ผ๋ฌธ์์๋ prompt๋ฅผ ์ ๋ ฅ template๊ณผ ํ๊น template์ ๊ด๋ จ๋ metadata์ ํจ๊ป ๊ตฌ์ฑ๋๋๋ก ์ ์ํ์๋ค. template์ ์ ๋ ฅ & ํ๊น ์ํ์ค๋ฅผ ์ํ ์์ฐ์ด๋ก ๋ฐ์ดํฐ example์ ๋งคํํ๋ ํจ์์ด๋ค. ๊ทธ๋ฆฌ๊ณ template์ ์ฌ์ฉ์๊ฐ ์์์ ํ ์คํธ๋ฅผ ๋ฐ์ดํฐ ํ๋, metadata, raw field๋ฅผ ๋ ๋๋ง & ํฌ๋งคํ ํ๊ธฐ ์ํ ๋ค๋ฅธ ์ฝ๋๋ฅผ ์์ ์ ์๊ฒ ํด ์ค๋ค. ์๋ฅผ ๋ค์ด NLI ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ์ example์ Premise, Hypothesis, Label์ ๋ํ ํ๋๋ฅผ ํฌํจํ๊ณ ์์ ๊ฒ์ด๋ค. ์ ๋ ฅ template์ 'If {Premise} is true, is it also true that {Hypothesis}?'๊ฐ ๋ ๊ฒ์ด๊ณ , ํ๊น template์ ๋ผ๋ฒจ ์ ํ '{Choices[label]}'๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ํ ์ ์๋ค. ์ฌ๊ธฐ์ Choices๋ label ์๋ฐ(0), ์ค๋ฆฝ(1), ๋ชจ์(2)์ ํด๋นํ๋ ์ต์ yes, maybe, no๋ก ๊ตฌ์ฑ๋์ด ์๋ prompt-specific metadata์ด๋ค. ๋ค๋ฅธ metadata ๋ฌธ์๋ ํ๊ฐ ํ๋ ฌ ๊ฐ์ ์ถ๊ฐ์ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ๊ฐ๊ฐ์ data example์ ๊ทธ๋ฆผ 3์ ๋ํ๋ ์๋ ๋ง์ ์๋ก ๋ค๋ฅธ prompt template์ผ๋ก ๊ตฌ์ฒดํ๋๋ค.
prompt๋ฅผ ๊ฐ๋ฐํ๊ธฐ ์ํด ๋ฐ์ดํฐ์ ์์ ์ํธ์์ฉ์ ์ผ๋ก prompt๋ฅผ ์์ฑํ๋ ์ธํฐํ์ด์ค๋ฅผ ๋ง๋ค์๋ค. ๊ทธ ๊ฒฐ๊ณผ 24๊ฐ์ ๊ธฐ๊ด๊ณผ 8๊ฐ์ ๊ตญ๊ฐ์์ 36๋ช ์ contributor๊ฐ ์ฐธ์ฌํ์๋ค. ๋ ผ๋ฌธ์ ๋ชฉํ๋ prompt ํ์์ robust๋ฅผ ๊ฐ์ง๋๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ด๊ณ , ์ด๋ ํ ๊ฒ์ด prompt๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ง๋ค์ด์ฃผ๋์ง์ ๋ํ ์ง๋ฌธ์ ๋ฏธํด๊ฒฐ ์ํ์ด๊ธฐ ๋๋ฌธ์ ์ด ๋ชจ๋ ๊ฑธ ํด๊ฒฐํ๊ธฐ ์ํด contributor๋ค์๊ฒ ์์ ๋ก์ด ์คํ์ผ๋ก ๋ค์ํ prompt๋ฅผ ๋ง๋ค๊ฒ ํ์๋ค. ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ task์์ ๋ณ๊ฒฝ๋ prompt๋ ํ์ฉ์์ผฐ๋๋ฐ, ์ด๋ ๋ค์์ฑ ํฅ์์ ์ํด์ ์ด๋ค. ์ด๋ ๊ฒ ์ป์ด์ง prompt์ ๋ชจ์์ Public Pool of Prompts(P3)๋ผ๊ณ ํ๋ค. P3๋ 177๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด 2,073๊ฐ์ prompt๋ฅผ ๊ฐ์ง๋ค. ์คํ์ ์ฌ์ฉ๋๋ prompt๋ค์ BIG-bench๋ฅผ ์ ์ธํ๊ณ P3๋ก๋ถํฐ ๋ฝ์์ง๋ค.
4. Experimental Setup
์คํ ์ธํ ์์๋ ๊ฐ๋จํ๊ฒ๋ง ์ง๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ๋ค.
Model pre-trained model์ ์์ฐ์ด prompt ๋ฐ์ดํฐ์ ์ multitask training ํผํฉ์์ fine-tune ํ์๋ค. ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ์ ๋ ฅ ํ ์คํธ๊ฐ ์ธ์ฝ๋์ ๋ค์ด๊ฐ๊ณ ํ๊น ํ ์คํธ๊ฐ ๋์ฝ๋์์ ์์ฑ๋๋ encoder-decoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ maximum likelihood training์ ํตํด ํ๊น์ autoregressive ํ๊ฒ ์์ฑํ๋๋ก ํ์ต๋์๋ค. ์ด๋ฌํ ํ์ต ๋ฐฉ์์ GPT-3์ ๊ฐ์ decoder-only LM๊ณผ๋ ๋ค๋ฅธ ๋ฐฉ์์ด๋ค.
๋ ผ๋ฌธ์์ ํ์ต์ํจ ๋ชจ๋ ๋ชจ๋ธ์ T5์ ๊ธฐ๋ฐํ๋ค. T5์ pre-training objective๋ ์ ๋ ฅ ํ ์คํธ์์ ์ ๊ฑฐ๋ ํ ํฐ์ ์์ฑํ๋ objective์ด๋ค. ์ด๊ฒ์ prompt ๋ฐ์ดํฐ์ ์ ์์ฐ์ด ํ ์คํธ ์์ฑ ํ์๊ณผ๋ ๋ค๋ฅด๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ LM-adapted T5 ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค.
Training ๋ ผ๋ฌธ์ ๋ฉ์ธ ๋ชจ๋ธ์ธ T0์ multitask mixture์์ ํ์ต๋์๋ค. ๋ฐ๋ฉด์ T0+๋ ๋์ผํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ ๋๊ฐ์ ๋ชจ๋ธ์ด์ง๋ง, GPT-3์ ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์ถ๊ฐํ mixture์์ ํ์ต๋์๋ค. ๋ง์ง๋ง์ผ๋ก T0++๋ training mixture์ NLI์ BIG-bench๋ง held-out task๋ก ๋จ๊ฒจ๋๋ SuperGLUE๋ฅผ ์ถ๊ฐํ์๋ค.
Evaluation ๋ ผ๋ฌธ์์๋ 4๊ฐ์ held-out ์ ํต NLP task์ 11๊ฐ์ ๋ฐ์ดํฐ์ ์์ zero-shot ์ผ๋ฐํ๋ฅผ ํ๊ฐํ์๋ค: natural language inference(NLI), coreference, word sense disambiguation, sentence completion ๋ฟ๋ง ์๋๋ผ BIG-bench๋ก๋ถํฐ 14๊ฐ์ ์๋ก์ด task๋ฅผ ํฌํจ.
5. Results
5-1. Generalization to Held-out Tasks
๋ ผ๋ฌธ์ ์ฒซ ๋ฒ์งธ ์ง๋ฌธ์ multitask prompted training์ด held-out task์ ๋ํด์ ์ผ๋ฐํ๋ฅผ ํฅ์์ํฌ ์ ์๋์ง์๋ค. ๊ทธ๋ฆผ 4์์๋ 4๊ฐ์ held-out task์์ T0์ T5+LM baseline์ ๋ํด ๋น๊ตํ์๋ค. ๋ ผ๋ฌธ์ ๋ฐฉ์์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ baseline๋ณด๋ค ์๋นํ ๋ง์ ์ฑ๋ฅ ํฅ์์ ์ด๋์๋ค. ์ด๋ multitask prompted training์ด ๋์ผ ๋ชจ๋ธ๊ณผ prompt๋ฅผ ์ฌ์ฉํ์ฌ language modeling training์ ํ ๋ ์ด์ต์ ์ค๋ค๋ ๊ฒ์ ์ค๋ช ํ๋ค.
๊ทธ๋ค์์, ๋ ผ๋ฌธ์์๋ T0์ ์๋ฌธ์ด ๊ฐ๋ฅํ largest LM์ธ GPT-3 / 175B ํ๋ผ๋ฏธํฐ์ zero-shot ์ฑ๋ฅ๊ณผ ๋น๊ตํ์๋ค. ๋ ผ๋ฌธ์์๋ ์ค๊ฐ๊ฐ๊ณผ P3์ ๋ชจ๋ prompt์ ๋ํด cherry picking ์์ด ์ฑ๋ฅ์ 4๋ถ์์๊ฐ ๋ฒ์๋ฅผ ๊ธฐ๋กํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ T0์ 11๊ฐ ์ค 9๊ฐ์ held-out ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ GPT-3 ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ง๋จน๊ฑฐ๋ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. T0๊ณผ GPT-3 ๋ ๋ค NLI์์ ํ์ต๋์ง๋ ์์์ผ๋ T0์ ๋ชจ๋ NLI ๋ฐ์ดํฐ์ ์์ GPT-3์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
๋ ๋ง์ held-out task์์ ๋ชจ๋ธ์ ํ๊ฐํ๊ธฐ ์ํด, BIG-bench์ ์๋ธ์ ์์ T0, T0+, T0++์ zero-shot ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฌ์ด์ฆ๊ฐ ์ปค์ง์ ๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ฑ๋ฅ๋ ํฅ์๋๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
5-2. Prompt Robustness
๋ ผ๋ฌธ์ ๋ ๋ฒ์งธ ์ง๋ฌธ์ ๊ด๋ฒ์ํ prompt์์์ ํ์ต์ prompt์ ์๋ฉ์ ๋ํ robustness๋ฅผ ํฅ์ํด ์ค์ง์ด๋ค. ๋ ผ๋ฌธ์์๋ ํ์ต ์ค์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ๋น ํ๊ท prompt์ ์($p$)์ ๋ฐ์ดํฐ์ ์ ์($d$)์ ํจ๊ณผ์ ๋ํ ablation ์คํ์ ์งํํ์๋ค.
Effect of More Prompts per Dataset ์ด ๋ถ์์์๋ $d$๋ฅผ ๊ณ ์ ํ๊ณ ๋ฐ์ดํฐ์ ๋น ๋ค์ํ ์์ prompt๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์๋ค. T0์ ๋ฐ์ดํฐ์ ์ original task์ ๋ํ๋์ง ์๋ ๋ช ๊ฐ์ prompt์์ ํ์ต๋๋ค. ์ด prompt๋ค์ ํ๊ท ์ ์ผ๋ก 8.03์ $p$๋ฅผ ๊ฐ์ง๋ค. ๋ ผ๋ฌธ์์๋ T0์ ๋ค์๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์๋ค. ๋ชจ๋ ๋ชจ๋ธ์ ๋๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๊ฐ์ ์์ step์ ์ฌ์ฉํ์ฌ ํ์ต๋์๋ค.
- $p = 1$: ๋๋ค ํ๊ฒ ์ ํ๋ ํ๋์ original-task prompt
- $p = 0$: T5+LM
- $p = 5.7$: ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ชจ๋ original-task prompts
๊ทธ๋ฆผ 6์ ๋ณด๋ฉด $p = 1$์ด $p = 0$ ๋ณด๋ค ์๋นํ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ $p = 5.7$์ ๊ฒฝ์ฐ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค. ์ด๊ฒ์ ๋ ๋ซ๊ณ ๋ robust ํ ์ผ๋ฐํ๋ฅผ held-out task์์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ๋ฐ์ดํฐ์ ๋น ๋ ๋ง์ prompt์์ ํ์ต๋๋ค๋ ๊ฐ์ค์ ๊ฐํ์ํค๊ณ ์๋ค. ๋ง์นจ๋ด, ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ์ ์ original-task์ ๊ด๋ จ ์๋ prompt๋ ํฌํจํ T0์ ๋ชจ๋ prompt๋ ์ค๊ฐ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ํฅ์ํ๊ณ , ๋์ฑ ํผ์ง ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค. ์ด๋ non-original-task prompt์์์ ํ์ต ๋ํ ์ ์ตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Effect of Prompts from More Datasets ์ด ์คํ์์ $p$๋ ๋ชจ๋ ๊ฐ๋ฅํ prompts๋ก ํ๊ณ , $d$๋ 39 → 49 → 55(T0, T0+, T0++)๋ก ์ฆ๊ฐํ์๋ค. ๊ทธ๋ฆผ 7์ $d$๊ฐ 39์์ 49๋ก ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ชจ๋ 5๊ฐ์ held-out ๋ฐ์ดํฐ์ ์ ์ค๊ฐ๊ฐ์ ์์นํ์๋ค. ํ์ง๋ง, spread๋ ํ๋์ ๋ฐ์ดํฐ์ ์์๋ง ์ค์ด๋ค์๋ค. 49์์ 55๋ก ์ฆ๊ฐ์์ผฐ์ ๋๋ ์ด์ ์ ์ฌํ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ฅผ ํตํด $d$๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ prompt์ ์๋ฉ์ ๋ํ ๋ชจ๋ธ์ robustness๋ฅผ ํฅ์์ํค์ง๋ ์๋๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
Comparing T0 and GPT-3's robustness T0์ GPT-3๋ณด๋ค prompt formulation์์ ๋ ๋์ tobust๋ฅผ ๋ณด์ฌ์ค๋ค.
6. Discussion
์ต๊ทผ์ ์ ์๋ FLAN์ multitask prompt training์ ํตํด zero-shot ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฒ๊ณผ ๊ฑฐ์ ๋์ผํ ๋ฐฉ๋ฒ์ ๊ณต์ ํ๋ค. FLAN๊ณผ ๋น๊ตํ์ฌ, T0๊ณผ T0++๋ FLAN๋ณด๋ค 10๋ฐฐ ๋ ์์ ์ฌ์ด์ฆ์์๋ ๋ถ๊ตฌํ๊ณ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
T0๊ณผ FLAN์ GPT-3์ Winogrande์ HellaSwag ์ฑ๋ฅ๋ณด๋ค ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋๋ฐ, ๋ถ์์ ํ ๋ฌธ์ฅ์ ๋ง๋ฌด๋ฆฌํ๋ ๊ฒ์ผ๋ก ํ์ํ๋ ์ ์๋ coreference resolution ํด๊ฒฐ๊ณผ ๊ฐ์ task์ ๊ฒฝ์ฐ prompt์ task instruction์ ์ถ๊ฐํ๋ ๊ฒ์ "๋๋ถ๋ถ ์ค๋ณต"์ด๋ผ๊ณ ์ถ์ธกํ๋ค. ์ด ์ถ์ธก์ ๋ฐ๋ผ์ ๋ ๊ฐ์ ๋ฐ์ดํฐ์ ์ instruction ์์ด ์ฌํ๊ฐ๋ฅผ ์งํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ฑ๋ฅ ํฅ์์ด ์ผ์ด๋ฌ๋ค.
T0(11B ํ๋ผ๋ฏธํฐ)๊ณผ ๋น์ทํ ์ฌ์ด์ฆ(8B ํ๋ผ๋ฏธํฐ)์ ๋ํด ablation์ ์งํํ๊ณ held-out task์์์ ์ฑ๋ฅ์ multitask prompted trainingํ์ ์ค์ด๋ ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ์ฌ๊ธฐ์ multitask prompted training์ ์ฌ์ฉํ์ ๋์ ์ฑ๋ฅ ํฅ์์ ์ต์ 3B๊ฐ ์ด์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ ๋ํด์๋ง ๋ฐ์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค(๊ทธ๋ฆผ 8). ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ถ์ผ์น๋ฅผ ์ค๋ช ํ ์ ์๋ ๋ ๋ชจ๋ธ ๊ฐ์ ์ฃผ์ ์ฐจ์ด์ ์ ์๋ณํ์๋ค.
- ๊ธฐ์กด LM์ฒ๋ผ ํ์ต๋๊ธฐ ์ด์ ์ ์๋ก ๋ค๋ฅธ objective๋ฅผ ์ฌ์ฉํด pre-train ๋ encoder-decoder ๋ชจ๋ธ์ ์ฌ์ฉ. ๊ทธ๋ค์์ ์ต์ข ์ ์ผ๋ก multitask mixture์์ fine-tune ํจ. → ์ด๋ MLM์ด ๊ฐ์ฅ ํจ๊ณผ์ ์ธ pre-training ์ ๋ต์ด๋ผ๋ ๊ฒ์ ์ค๋ช ํด ์ค.
- ๋ ผ๋ฌธ์ prompt๊ฐ ๊ธธ์ด & ์ฐฝ์์ฑ ์ธก๋ฉด์์ ๋์ฑ ๋ค์ํจ์ ๋ณด์ฌ์คฌ์. → prompt์ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ์ฑ๋ฅ์ ์ํฅ์ ์ค & ์ด๋ฐ ๋ค์์ฑ์ ํ์คํ ํจ๊ณผ๊ฐ ์์.
์ถ์ฒ
https://arxiv.org/abs/2110.08207