The overview of this paper
์ด๋ป๊ฒ NLP ๋ชจ๋ธ๋ค์ task instruction์ด ์ฃผ์ด์ง ๋ ๋ค์ํ unseen task์ ๋ํด์ ๊ทธ๋ ๊ฒ ์ ์ผ๋ฐํํ ์ ์์๊น? ์ด ์ง๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ 1,616๊ฐ์ ๋ค์ํ NLP task์ ๋ฒค์น๋งํฌ์ ์ด๋ค์ ์ ๋ฌธ๊ฐ๊ฐ ์์ฑํ instruction์ ํฌํจํ๊ณ ์๋ Super-Natural Instructions๋ฅผ ์๊ฐํ์๋ค. ์ด ํฌ๊ณ ๋ค์ํ task์ ๋ชจ์์ instruction ํ์์ cross-task ์ผ๋ฐํ์ ์ฒ ์ ํ ๋ฒค์น๋งํฌ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค - ๋ชจ๋ธ์ด task์ ์๋ธ์ ์์ instruction์ ๋ฐ๋ฅด๋๋ก ํ์ต์ํค๊ณ ๋จ์ ์๋ unseen task์ ๋ํด์ ํ๊ฐํ๋๋ก ํ์๋ค.
๊ฒ๋ค๊ฐ ๋ ผ๋ฌธ์์๋ ๋ค์ํ ๋ฌธ๋งฅ instruction์ ๋ฐ๋ฅด๋๋ก ํ์ต๋๋ transformer ๋ชจ๋ธ์ธ Tk-Instruct๋ฅผ ๋ง๋ค์๋ค. ๋ ผ๋ฌธ์ ์คํ์ ํตํด Tk-Instruct๊ฐ ๊ธฐ์กด instruction-following model(GPT-3) ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค.
Table of Contents
1. Introduction
2. Super-Natural Instructions
3. Tk-Instruct: Learning to Follow Instructions at Scale
4. Benchmarking Cross-Task Generalization with Sup-NatInst
5. Experimental Results
6. Further Analysis
1. Introduction
NLP ์ปค๋ฎค๋ํฐ์์ LLM์ unseen task์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ถ๋ถ์์ ํฐ ์ฑ๊ณต์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง, InstructGPT ๊ฐ์ ๋ชจ๋ธ์ด ์ฃผ๋ชฉํ ๋งํผ ๋ค์ํ ์ค๊ณ ์ ํ์ด ์ฑ๊ณต์ ๊ธฐ์ฌํ๋ ๋ฐ๋ ๋ถํฌ๋ช ํ๋ค. ํนํ, ์ฃผ์ ๋ชจ๋ธ๋ค์์ ๊ณต๊ฐํ ํ์ ๋ ๋ฐ์ดํฐ ๋๋ฌธ์ supervised data์ ์ญํ ์ ํญ์ understudy์ ๋จธ๋ฌผ๋ฌ ์์๋ค. ๊ฒ๋ค๊ฐ ์ฐ๊ตฌ์ ์ธก๋ฉด์์ ์ด๋ ๊ฒ ๊ฑฐ๋ํ ๋ชจ๋ธ์ ๋๋ฆฌ๊ฑฐ๋ ๋ค์ ํ์ต์ํค๋ ๊ฒ์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ๊ด๋ฒ์ํ NLP task์ ํฐ ๊ท๋ชจ์ ๊ณต๊ณต ๋ฒค์น๋งํฌ์ ๊ฐ์ฉ์ฑ๊ณผ unseen task์ ๋ํด์ ์ผ๋ฐํํ ์ ์๋ ๋ชจ๋ธ์ ๋ฐ์ ๊ณผ ํ๊ฐ๋ฅผ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํ instruction์ด ํ์์ ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ instruction์ ๊ฐ์ง๊ณ ์๋ ๊ด๋ฒ์ํ NLP task๋ก ๊ตฌ์ฑ๋์ด ์๋ meta-dataset์ ๋ง๋ค์๋ค. ๊ทธ๋ฆฌ๊ณ instruction์ด ์ฃผ์ด์ง๋ฉด ์๋ก์ด task๋ฅผ ์ํํ ์ ์๋ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ธ์ InstructGPT๋ฅผ ๋ฅ๊ฐํ์๋ค. (16๋ฐฐ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก ๋ง์ด๋ค!)
๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ธ Super-Natural Instructions๋ 1,616๊ฐ์ NLP task์ ์ด๋ค์ instruction์ ํฌํจํ๊ณ ์๋ค. ์ด ๋ฐ์ดํฐ์ ์๋ 76๊ฐ์ task ์ ํ๊ณผ 55๊ฐ์ ์๋ก ๋ค๋ฅธ ์ธ์ด๋ฅผ ํฌํจํ๊ณ ์๋ค. ๊ฐ๊ฐ์ task๋ ์ ๋ ฅ ํ ์คํธ๋ฅผ task ์ถ๋ ฅ๊ณผ ์๋๋๊ฑฐ๋ ์๋๋์ง ์์ ์ถ๋ ฅ์ ์ค๋ช ํ๊ธฐ ์ํ ๋ค์ํ ์์๋ฅผ ๋งคํํ๊ธฐ ์ํ task ์ ์๋ก ๊ตฌ์ฑ๋์ด ์๋ instruction๊ณผ ์์ ์ด๋ฃจ๊ณ ์๋ค. (๊ทธ๋ฆผ 1์์ ์์ task๋ฅผ ํ์ธ) task์ ์ด๋ค์ intsruction์ 88๋ช ์ NLP๋ถ์ผ์ ํ์ญ์ผ๋ก ๊ณ์๋ ๋ถ๋ค์ ๋์์ ๋ฐ์ ๋ง๋ค์ด์ก๋ค. ๋ค์ํ๊ณ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ task๋ฅผ ์ ์คํ๊ฒ train & test ์ธํธ๋ก ๋ถํ ์ํค๊ณ SoTA ์ธํธ๊ฐ ์ด๋ค์์ ์ด๋ป๊ฒ ์ํ๋๋์ง ์ฐ๊ตฌํ ์ ์๊ฒ ๋์์ค๋ค. ํ 1๊ณผ ๊ทธ๋ฆผ 2๋ ๋ ผ๋ฌธ์ ๋ฒค์น๋งํฌ์ task ๋ค์์ฑ๊ณผ instruction ์ ํ์ ๊ฐ์กฐํ์๋ค.
๋ ผ๋ฌธ์ ๋ชจ๋ธ์ธ Tk-Instruct๋ ์ํฉ์ ๋ง๋ ์์ ๋ฌธ instruction์ด ์ฃผ์ด์ง task ์ ๋ ฅ์ ๋ณํํ๊ธฐ ์ํ ์์ฑ ๋ชจ๋ธ์ด๋ค. training set์์์ ๋ชจ๋ task instruction์ ๋ํ T5 ๋ชจ๋ธ์ multi-tasl training์ ์ํด ๋ง๋ค์ด์ง๊ณ , test set์ unseen task์์ ํ๊ฐ๋๋ค. ์ ๊ธฐํ๊ฒ๋ 11B Tk-Instruct๋ 175B InstructGPT๋ฅผ ์์ด๋ฅผ ํฌํจํ ๋ค์ํ ์ธ์ด ๋ถ๋ถ์์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ๋ค.
2. Super-Natural Instructions
Super-Natrual Instructions๋ ๋ค์ํ NLP task์ task๋ฅผ ์์ ์ธ์ด๋ก ์ค๋ช ํ๋ instruction๋ก ๊ตฌ์ฑ๋์ด ์๋ meta-dataset ์ด๋ค.
Instruction schema. ๋ชจ๋ task instruction์ ๋ค์์ ํํธ๋ก ๊ตฌ์ฑ๋์ด ์๋ ๋๊ฐ์ ๊ท ์ผํ schema๋ฅผ ๋ฐ๋ฅธ๋ค.
- DEFINITION: ์ฃผ์ด์ง task๋ฅผ ์์ฐ์ด๋ก ์ ์ํ๊ณ ์ ๋ ฅ ํ ์คํธ๊ฐ ์ด๋ป๊ฒ ์ถ๋ ฅ ํ ์คํธ๋ก ๋งคํ๋๋์ง ์ ์
- Positive Examples: ์ ๋ ฅ์ ์ํ & ์ด๋ค์ ์๋ง์ ์ถ๋ ฅ. ๊ฐ๊ฐ์ ๋ํ ์งง์ ์ค๋ช ์ ํฌํจํ๊ณ ์์.
- Negative Examples: ์ ๋ ฅ์ ์ํ & ์ด๋ค์ ํ๋ฆฐ ์ถ๋ ฅ. ๊ฐ๊ฐ์ ๋ํ ์งง์ ์ค๋ช ์ ํฌํจํ๊ณ ์์.
Task instances. ๊ฐ๊ฐ์ task์ ๋ํ instruction์ด ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ์ task์ ์ธ์คํด์ค๋ฅผ ํด๊ฒฐํ ๊ฒ์ผ๋ก ์์ธก๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ task์ ์ธ์คํด์ค๋ฅผ ์กฐ์งํ๊ธฐ ์ํด ํตํฉ ํ์์ ์ฌ์ฉํ๋ค. ๋์ฑ ์ ํํ๊ฒ, ๊ฐ๊ฐ์ ์ธ์คํด์ค๋ ํ ์คํธ ์ ๋ ฅ๊ณผ ๋ฐ์๋ค์ฌ์ง ๋งํ ํ ์คํธ ์ถ๋ ฅ์ ๋ฆฌ์คํธ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ ผ๋ฌธ์์๋ task ๊ฐ์ ๋ฐธ๋ฐ์ค๋ฅผ ๋ง์ถ๊ธฐ ์ํด ๊ฐ task์์ ์ธ์คํด์ค์ ์๋ฅผ 6.5K๋ก ์ ํํ์๋ค.
Diversity of tasks. Super-Natural Instructions๋ฅผ ์ํ task๋ฅผ ์์งํ๋ ๊ฒ์ ๋ค์ํ ์์ฐ์ด ์ดํด task, domain, language๋ฅผ ์ปค๋ฒํ๊ธฐ ์ํด ์ธ๋ฐํ๊ฒ ๊ฐ๋ ๋์๋ค. ์ด ๋ค์์ฑ์ ๋์ฑ ์ ์ดํดํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ 3๊ฐ์ ๋ค๋ฅธ ์ฐจ์๊ณผ ํจ๊ป task๋ฅผ ์ข ํฉ์ ์ผ๋ก ์นดํ ๊ณ ๋ฆฌํํ์๋ค:
- Task Type: ์ธ์คํด์ค ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ถ๋ ฅ์ผ๋ก์ ๋งคํ ํ๊ฒฝ
- Language: ์ธ์คํด์ค์ ์ธ์ด๋ฅผ ๋ํ๋
- Domain: task์ ํ ์คํธ๊ฐ ์ํด ์๋ ๋๋ฉ์ธ์ ๋ํ๋
์ด๋ฌํ ์นดํ ๊ณ ๋ฆฌํ์ ์๋ก ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ผ๋ฐํ์ ์๋ก ๋ค๋ฅธ ์ผ์ค๋ฅผ ์ฐ๊ตฌํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์๋ค.
Statistics. ํ 2๋ ๋ฒค์น๋งํฌ์ ๋ํ ๋ค์ํ ํต๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค. ์ข ํฉ์ ์ผ๋ก ๋ฐ์ดํฐ์ ์ 1,616๊ฐ์ task์ 5M์ ์ธ์คํด์ค๋ฅผ ํฌํจํ๊ณ ์๋ค. ํ๊ท ์ ์ผ๋ก ๊ฐ๊ฐ์ instruction์ 2.8๊ฐ์ positive example๊ณผ 2.4๊ฐ์ negative example๊ณผ ์์ ์ด๋ฃฌ๋ค. ํ๊ท ์ ์ธ ์ ์ ๋ฌธ์ฅ์ ๊ธธ์ด๋ 56.6 ๋จ์ด์ด๋ค.
3. Tk-Instruct: Learning to Follow Instruction at Scale
Defining Generalization to Unseen Tasks. ๊ฐ๊ฐ์ task $t$๋ ์ด task์ ์์ฐ์ด instruction $I_{t}$๋ฅผ ํตํด ์ ์๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ๊ฐ์ task๋ ์ ๋ ฅ/์ถ๋ ฅ ์ธ์คํด์ค ์ธํธ $(X_{t}, Y_{t})$๋ฅผ ๊ฐ์ง๋ค. ๋ชจ๋ธ $M$์ ์ ๋ ฅ $x$์ task instruction $I_{t}$๊ฐ ์ฃผ์ด์ง๋ฉด ์ถ๋ ฅ $y$๋ฅผ ์์ฑํ๋ค: $M(I_{t}, x) = y, (x, y) \in (X_{t}, Y_{t})$. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ $M$์ ๊ด์ฐฐ๋์ง ์์ task์์ ํ๊ฐํ๋ค. ์ถ๋ก ์์ task๋ฅผ ํ์ตํ๊ธฐ ์ํ ์ ํธ์ ์ ์ผํ ์์ค๋ task์ ์ ์์ ์ค๋ช ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ ๋ฌธ๋งฅ instruction $I_{t}$์ด๋ค.
Tk-Instruct. ๋ ผ๋ฌธ์์๋ task์ ๋ํ instruction์ด ์ฃผ์ด์ง๋ฉด task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ Sup-NatInst์์ meta-train ๋ ๋ชจ๋ธ์ธ Tk-Instruct๋ฅผ ์๊ฐํ์๋ค. ์ด์ ์ ์ฐ๊ตฌ๋ค์์๋ ์ด๋ฌํ meta-training์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐํ๋ค. Sup-NatInst์ ๊ด๋ฒ์ํ task ๋๋ฌธ์ ์ด์ ๋ณด๋ค ๋ ํฐ ๊ท๋ชจ์์ multi-task meta-training์ ํ ์ ์์๋ค. ๋ ผ๋ฌธ์์๋ ์คํ๊ณผ ๋ถ์์ T5 ๋ชจ๋ธ์ ๊ธฐ๋ฐํด์ ์งํํ์๋ค. ๊ฐ๊ฐ์ instruction $I_{t}$๋ ์์ instruction schema์์ ์๊ฐํ๋ ๊ฒ์ฒ๋ผ ๋ค์ํ ์์๋ค๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ์์๋ค์ ํ ์คํธ ํ์์ผ๋ก ๋งคํํด์ ์ ๋ ฅ ์ธ์คํด์ค ์ด์ ์ ์ถ๊ฐํ์๋ค. ๊ธฐ๋ณธ๊ฐ์ผ๋ก ๋ ผ๋ฌธ์์๋ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ instruction ์์๋ฅผ ์ฌ์ฉํ์๋ค.
4. Benchmarking Cross-Task Generalization with Sup-NatInst
4-1. Evaluation Setup
An Evaluation Split of Unseen Tasks. ๋ ผ๋ฌธ์์๋ ๊ฑฐ๋ํ task ๋ชจ์์ธ Sup-NatInst๋ฅผ ๋ ๊ฐ์ ์๋ธ์ ์ผ๋ก ๋๋ด๋ค: ํ๋๋ ํ๊ฐ, ํ๋๋ supervision. ํ๊ฐ task์ ๋ํด ๋ ผ๋ฌธ์์๋ ์๋์ผ๋ก ์ ํ๋ 154๊ฐ์ task๋ฅผ ๋ํ๋ด๋ 12๊ฐ์ ์นดํ ๊ณ ๋ฆฌ ๋ชจ์์ ์ ํํ์๋ค. Sup-NatInst์ ํฌ๊ณ ๋ค์ํ task๋ ํ๊ฐ๋ฅผ ์ํด ๋ค์ํ task ์ธํธ๋ฅผ ์ ํํ ์ ์๊ฒ ํด ์คฌ๋ค.
Divided Tracks for English and X-lingual Tasks. Sup-NatInst๋ ๋ค์ํ ์ธ์ด์ ๋ํ task๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ด๋ ๋ชจ๋ธ์ unseen task์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์์ด๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ์ธ์ด์ ๋ํด์๋ ํ๊ฐํ ์ ์๊ฒ ํด ์ค๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ํ๊ฐ task๋ฅผ ๋ ๊ฐ์ ํธ๋์ ๋๋์๋ค: English-only cross-task generalization(119 tasks) & cross-lingual cross-task generalization(35 tasks).
Evaluation Metrics. task์ ๋ค์์ฑ๊ณผ open-ended ์์ฑ ํ๊ฒฝ ๋๋ฌธ์, ๋ ผ๋ฌธ์์๋ ์ข ํฉ ์ฑ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ๊ธฐ ์ํด ROGUE-L์ ์ฑํํ์๋ค. ์ด๊ฒ์ ๊ด๋ฒ์ํ ํ ์คํธ ์์ฑ ์์ ์ ์ ์ฉํ ์ ์๋ ์ํํธ ๋ฌธ์์ด ์ค์ฒฉ ๋ฉํธ๋ฆญ์ด๋ค.
4-2. Baselines and Existing Models
Heuristic baselines. ๋ฐ์ดํฐ์์ ๊ฐ๋ฅํ ์์ปท์ ํ๊ฐํ๊ธฐ ์ํ ๋ค์์ ํด๋ฆฌ์คํฑ์ ํ๊ฐํ์๋ค.
- Copying Demo Output: ๋๋ค ์ค๋ช ์์์ ์ถ๋ ฅ์ ์นดํผํ๋ค. test task๋ฅผ ์ํ ๋ผ๋ฒจ์ ๋ฐธ๋ฐ์ค๋ฅผ ๋ง์ถ๊ธฐ ๋๋ฌธ์, ์ด baseline์ ์ฑ๋ฅ์ random guess์ ๋น์ทํ๊ฑฐ๋ ๋ถ๋ฅ task๋ฅผ ์ํ ์ฃผ์ baseline๊ณผ ๋น์ทํ ๊ฒ์ด๋ค.
- Copying Instance Input: ์ฃผ์ด์ง ์ธ์คํด์ค ์ ๋ ฅ์ ์นดํผํ๋ค. ์ด ์ ๋ต์ ํ๊น ์ถ๋ ฅ์ด ์ ๋ ฅ๊ณผ ์๋นํ ์ค๋ฒ๋ฉ๋๋ task์์ ์ ์๋ํ๋ค.
Off-the-shelf pre-trained language models. ๋ ผ๋ฌธ์์๋ instruction-specified ๋ฐ์ดํฐ๋ก fine-tune ๋์ง ์์ ๊ธฐ์กด์ LM์ ํ๊ฐํ๋ค. ๋ ผ๋ฌธ์์๋ Tk-Instruct์ ์๋๋ก 11B T5๋ฅผ ํ๊ฐํ์๋ค. T5์ ๋น ๊ณต๊ฐ ์ฑ์ฐ๊ธฐ pre-training objective ๋๋ฌธ์ ํ ์คํธ์ ์ ์งํ๋์ง ์๋๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ T5์ LM-adapted ๋ฒ์ ์ ์ฌ์ฉํ์๋ค. ์ด ๋ฒ์ ์ language modeling objective๋ก ์ถ๊ฐ์ ์ผ๋ก ํ์ต๋์๋ค. ์ถ๊ฐ์ ์ผ๋ก ๋ ผ๋ฌธ์์๋ 175B GPT-3๋ ํ๊ฐํ์๋ค.
Instruction-tuned models. ๋ ผ๋ฌธ์์๋ Tk-Instruct์ language instruction์ ๋ฐ๋ผ์ fine-tune ๋ ๊ธฐ์กด์ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์๋ค: InstructGPT & T0.
Upper bound estimates. ๋ ผ๋ฌธ์์๋ oracle ๋ชจ๋ธ์ task labeled ์ธ์คํด์ค์์ fine-tune ํจ์ผ๋ก์จ unseen task์ ๋ํด์ ๋ชจ๋ธ์ ์ผ๋ฐํ์ ๋ํ ์ํ์ ์ธก์ ํ์๋ค. ์ด ๋ชจ๋ธ์ ํ๊ฐ task์ ์จ๊ฒจ์ง ์ธ์คํด์ค๋ฅผ ๊ด์ฐฐํ๊ธฐ ๋๋ฌธ์ ์ ์์ ๋ฐ๋ผ ์ผ๋ฐํ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ํ ์ถ์ ์ํ์ ์ด๋ค.
5. Experimental Results
5-1. Overall Results
ํ 3์ ์ ๋ฐ์ ์ธ ๋ฒค์น๋งํน ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๊ณ ์๋ค. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ method์ ๋ํ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ instruction ์์๋ฅผ ํฌํจํ๋ ๋๊ฐ์ ์ ๋ ฅ ์ธ์ฝ๋ฉ์ ์ฌ์ฉํ์๋ค. ์๋ก ๋ค๋ฅธ task์ ๋ํ ๋ชจ๋ธ์ ์ผ๋ฐํ๋ฅผ ๋์ฑ ์ ์ดํดํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ task ์นดํ ๊ณ ๋ฆฌ์ ๋ฐ๋ผ์ ์ฑ๋ฅ์ ๋ถํดํ์๋ค (๊ทธ๋ฆผ 4).
Instruction-tuning์ unseen task์ ๋ํด ๊ฐ๋ ฅํ ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด ์ค. instruction-tuned ๋ชจ๋ธ์ untuned LM & heuristic baseline๊ณผ ๋น๊ตํด์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ด instruction ๋ฐ์ดํฐ์์ ํ์ตํจ์ผ๋ก์จ isntruction์ ๋ฐ๋ฅด๊ธฐ ์ํด ํ์ตํจ์ผ๋ก์จ unseen task์ ๋ํ ์ instruction์ ์ผ๋ฐํํ ์ ์์์ ๋ํ๋ธ๋ค. T0์ ์์ธ์ ์ผ๋ก T5-LM๋ณด๋ค ์ด์ง ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ด๋ T0์ training data๊ฐ ๋ ผ๋ฌธ์ instruction ์คํ์ผ๊ณผ ๋งค์ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ถ์ธกํ๋ค.
Tk-Instruct๊ฐ InstructGPT๋ฅผ ๋ฅ๊ฐํจ. ๋ ผ๋ฌธ์ Tk-Instruct๋ InstructGPT๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ฌ์ง์ด English์ non-English ๋ชจ๋์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฌ๋ InstructGPT์ ํ๋ จ ๋ฐ์ดํฐ๋ ๊ณต๊ฐ๋์ด ์์ง ์๊ธฐ ๋๋ฌธ์ ํ๊ฐ task์ ๊ฒน์น๋์ง ์ฌ๋ถ๊ฐ ๋ช ํํ์ง ์๋ค๋ ์ ์ ์ ์ํ๊ณ ์ถ๋ค.
๊ฐ์ ์ ๋ํ ์๋นํ ๊ฐญ์ด ์์. ํ์ฌ ๋ชจ๋ธ์ ์ธ์์ ์ธ ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ , instruction-based ๋ชจ๋ธ๊ณผ supervised training ๋ฐฉ์ ๊ฐ์๋ ์์ง ์๋นํ ๊ฐญ์ด ์๋ค.
5-2. Human Evaluation
์ธ์ด ์์ฑ task์ ๋ํด ์๋์ ๋ฉํธ๋ฆญ์ ์ฌ๋ ํ๊ฐ์ ๊ทผ์ฌ์น์ผ ๋ฟ์ด๋ค. ๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ์ฌ๋ ํ๊ฐ๋ฅผ ์งํํ์๋ค. ๊ฒฐ๊ณผ๋ก ๋์จ ์ฌ๋ ํ๊ฐ ์งํ๋ ๋ชจ๋ธ ์์ธก์ด ์ ์ด๋ ์ ๋ต ๋ผ๋ฒจ๋งํผ ์ข์ ๊ฒ์ผ๋ก ํ๊ฐ๋ ๋น๋๋ฅผ ๋ํ๋ธ๋ค. ์ด ์งํ์ ์ด๋ก ์ ์ํ์ ๋ชจ๋ธ์ด ๋ชจ๋ ์ธ์คํด์ค์ ๋ํด ์ ์ด๋ ์ค์ธก๋งํผ ์ํธํ๋ค๊ณ ํ๊ฐ๋ ๋ 100%์ด๋ค. ์ฌ๋ ํ๊ฐ ๊ฒฐ๊ณผ(๊ทธ๋ฆผ 3)๋ ์๋ ๋ฉํธ๋ฆญ๊ณผ ๋งค์ฐ ์ ์ผ์นํ๋ฉฐ ์ธ๊ฐ์ด ์ธ์ํ๋ ๋ชจ๋ธ์ ํ์ง์ ํ์ธํ๋ค.
6. Further Analysis
6-1. Scaling Trends of Generalization
๋ ผ๋ฌธ์์๋ 3๊ฐ์ scaling factor(training task์ ์, task ๋น ์ธ์คํด์ค์ ์, ๋ชจ๋ธ์ ํฌ๊ธฐ)์ ๊ดํ Tk-Instruct์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ฐ๊ตฌํ์๋ค. ๊ทธ๋ฆผ 5๋ ๊ฐ๊ฐ์ scaling์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ณด์ฌ์ค๋ค.
๊ด์ฐฐ๋ task๊ฐ ๋ง์์๋ก ์ผ๋ฐํ๊ฐ ํฅ์๋จ. ๋ ผ๋ฌธ์์๋ Tk-Instruct๋ฅผ ์ ์ฒด training set๋ก๋ถํฐ ๋๋ค ํ๊ฒ ์ํ๋ง๋ ์๋ก ๋ค๋ฅธ ์์ task๋ก Tk-Instruct๋ฅผ fine-tune ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ training์ ์ฌ์ฉ๋๋ task์ ์๊ฐ ๋์ด๋จ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ log ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ์๋ค.
๋ง์ ์์ training ์ธ์คํด์ค๋ ์ผ๋ฐํ๋ฅผ ๋์์ฃผ์ง ์์ ๐. fine-tuning์ ์ฌ์ฉ๋๋ task ๋น ์ธ์คํด์ค์ ์๋ฅผ ๋ค์ํ๊ฒ ํด ๋ดค๋ค. supervised learning์์ ๊น๋ ค์๋ ๋ฒ ์ด์ค๋ ๋ ๋ง์ training ์ธ์คํด์ค๋ ๋๊ฒ ๋์์ด ๋๋ค๋ ๊ฒ์ด์๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์ ์ ์ ์์๋ task ๋น 64๊ฐ์ ์ธ์คํด์ค์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์๋ ดํ๊ธฐ ์์ํ๋ ๊ฒ์ ๋ณด์ฌ์คฌ๋ค. ๋ง์ ์์ training ์ธ์คํด์ค๋ ๊ธด ํ์ต ์๊ฐ๊ณผ ์ค๋ฒํผํ ์ ์ํ์ ์ด๋ ๋ฟ์ด์๋ค.
instruction์ ์ฌ์ฉํ์ฌ ๊ฑฐ๋ ๋ชจ๋ธ์ ํ๋ํ๋ ๊ฒ์ ์ฑ๋ฅ ํฅ์์ ์ด๋. ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ ๊ท๋ชจ์ ํจ๊ณผ ํ์ ์ ์ํด Tk-Instruct์ ์ฌ์ด์ฆ๋ฅผ ์ฌ๋ฌ ๊ฐ์ง(small, base, large, xl, xxl)๋ก ํด์ ํ๊ฐํ์๋ค. (๊ทธ๋ฆผ 5์ c) ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ์ผ๊ด์ ์ผ๋ก ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ๋ฐํ๋๋ค. ๊ทธ๋ฆผ 5์ a์ b๋ฅผ ํฉ์น๋ฉด, ๋ชจ๋ธ์ ์ฌ์ด์ฆ์ task์ ์ฌ์ด์ฆ ๊ฐ์ ์๊ด์ฑ์ ํ์ ํ ์ ์๋ค. ์ด๋ training task์ ๋ค์์ฑ์ ๋๋ฆฌ๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ ๋๋ฆฌ๋ ๊ฒ์ ๋์์ด ๋๋ค๋ ๊ฒ์ ์๋ ค์ค๋ค.
6-2. Instructing with Different Elements
๋ ผ๋ฌธ์์๋ ์๋ก ๋ค๋ฅธ instruction ์์ ํ์์ Tk-Instruct์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค.
์๋ก ๋ค๋ฅธ instruction ์์์ ์ด์ . ๊ทธ๋ฆผ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ Sup-NatInst๋ task๋ฅผ instruct ํ๊ธฐ ์ํด ๋ค์ํ ์์๋ฅผ ์ ๊ณตํ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์์๋ค์ ์๋ก ๋ค๋ฅธ ์กฐํฉ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ์ต์์ผฐ๋ค. ํ 4์ ๋๊ฐ์ ์ ๋ค์ ํน์ instruction ์ธ์ฝ๋ฉ์์ ํ์ต๋๊ณ ํ๊ฐ๋์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๋๊ฐ์ ์ซ์๋ค์ ๊ธฐ๋ฐํด์ task ์ ์๋ฅผ ํฌํจํ๋ ๊ฒ์ ๋ชจ๋ธ์ด ๋์ฑ ์ ์ผ๋ฐํํ๋๋ก ๋์์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๊ฒ๋ค๊ฐ task ์ ์๋ฅผ positive ์ค๋ช example๊ณผ ๋ฌถ๋ ๊ฒ์ ์ถ๊ฐ์ ๊ฐ์ ์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง ๋ ๋ง์ ์ค๋ช example์ ์ถ๊ฐํ๋ ๊ฒ์ ๋ฌด์ํด๋ ๋ ์ ๋์ ๊ฐ์ ์ ๋ณด์ฌ์ค๋ค. negative example์ ์ด์ง ๋์ ๋์ง๋ง, explanation์ ์คํ๋ ค ์ฑ๋ฅ์ ์ ํ์ํจ๋ค.
์๋ก ๋ค๋ฅธ ์ ๋ ฅ ์ธ์ฝ๋ฉ์ ๋ํ ์ผ๋ฐํ. ๋ ผ๋ฌธ์์๋ ํน์ ์ธ์ฝ๋ฉ์์ ํ์ต๋ ๋ชจ๋ธ์ด ๋ค๋ฅธ ์ธ์ฝ๋ฉ์ ๋ํด์๋ ์ ์ผ๋ฐํํ ์ ์๋์ง ์กฐ์ฌํ์๋ค. ์ด๋ ํ 4์ ๋๊ฐ์ ์ ์์ง ์์ ์ ๋ค์ ๋ณด๋ฉด ์ ์ ์๋ค. ์ด๊ณณ์ ๋ถ์ ์ ์ธ ๊ฒฐ๊ณผ๋ definition-only ๋ชจ๋ธ์ด example-only test ์ธ์ฝ๋ฉ์๋ ์ ์ผ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค๋ค. ์ด์ ์ ์ฌํ๊ฒ example-only ๋ชจ๋ธ์ definition-only test ์ธ์ฝ๋ฉ์๋ ์ ์ผ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, definition๊ณผ example์ ๋ชจ๋ ํฌํจํ๊ณ ์๋ ์ธ์ฝ๋ฉ์์ ํ์ต๋ ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ ์ธ์ฝ๋ฉ ๋ณ์์ ๋ํด์ ๋๋ผ์ธ ์ ๋๋ก robust ํ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค.
์ถ์ฒ
https://arxiv.org/abs/2204.07705
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
How well can NLP models generalize to a variety of unseen tasks when provided with task instructions? To address this question, we first introduce Super-NaturalInstructions, a benchmark of 1,616 diverse NLP tasks and their expert-written instructions. Our
arxiv.org