The overview of this paper
instruction learning은 instruction tuning과 RLHF를 포함하는 fune-tuning 문제로 접근되었다. 여기서 LLM은 다양한 task에서 instruction과 함께 다양한 task에서 fine-tune 되었다. in-context learning을 instruction learning에 적용한 것이 In-Context Instruction Learning(ICIL)이다. ICIL은 pre-trained & instruction-finetned 모델의 zero-shot task 일반화 성능을 상당히 개선시켰다.
ICIL의 한 가지 핵심 장점은 모든 task를 평가하기 위해 여러 개의 cross-task를 연결한 하나의 고정된 prompt만 사용하면 된다는 것이다. 논문에서는 가장 강력한 instruction-finetuned baseline인 text-davinci-003 또한 ICIL을 사용함으로써 이득을 얻는 것을 보아 ICIL의 효과는 instruction 기반 fine-tuning에 대해 상호 보완적이라는 것을 가리킨다.
Table of Contents
1. Introduction
2. In-Context Instruction Learning
3. Experiments
4. Analysis
5. Discussion
6. Limitation
1. Introduction
LLM은 추론 중에 in-context learning이라 불리는 few-shot demonstration을 통한 타깃 task에 적응하기 위한 능력을 설명하였다. 이 능력은 모델의 사이즈가 커짐에 따라 더욱 크게 나타났다. 이 중 새롭게 나타난 능력은 instruction을 따름으로써 unseen task에 대해서 일반화를 진행할 수 있다는 것이다. 이전의 연구들은 주로 fine-tuning 기반 instruction-learning method에 집중하였다. 여기서 모델은 다양한 task에서 instruction과 함께 multi-task fine-tune 된다. 그렇지만 많은 역전파 프로세스를 필요로 한다.
이 논문에서는 in-context learning을 통해 inference 중에 instruction을 따르기 위한 학습을 포함하는 ICIL을 소개한다. 이 방법은 그림 1에서 보이는 것처럼 off-the-shelf pre-trained model과 instruction을 따르기 위해 fine-tune 되는 모델에 모두 이득을 가져다 준다. ICIL은 각 demonstration이 task에 대한 instruction, input, output instance의 연결인 다양한 cross-task demonstration으로 구성되어 있는 prompt를 사용한다. ICIL은 그림 2와 보이는 것 같이 zero-shot learning이다!
- demonstration에 사용된 task는 evaluation set로부터 엄격하게 제외됌
- 모든 evaluation task에 대해 똑같은 설명 세트를 사용하고, 이를 하나의 고정된 prompt로 여김
논문에서는 다양한 downstream task와 모델 규모에 대해 효과적인 고정된 demonstration set을 만들기 위한 간단한 휴리스틱 기반 sampling 방법을 사용하였다. 똑같은 고정된 demonstration을 사용함으로써 외부 툴에 의존하지 않고 새로운 타깃 task 또는 모델에 대한 baseline의 zero-shot 성능을 손쉽게 테스트하고 복제할 수 있었다.
논문에서는 그림 1에서 보이는 것처럼 ICIL이 instruction을 따르기 위해 fine-tune 되지 않은 다양한 PLM의 zero-shot task 일반화 성능을 상당히 향상시킨다는 것을 발견하였다. 심지어는 ICIL을 사용한 smaller model이 ICIL을 사용하지 않은 larger model보다 더 좋은 성능을 보여줬다. 그리고 ICIL을 instruction-finetuned LLM 위에 적용하는 것은 LLM의 instruction-following 능력을 상당히 향상시킨다는 것을 발견하였다. 이것은 ICIL의 효과가 instruction-finetuning의 효과에 대해 상호 보완적이라는 것을 나타낸다.
논문의 분석은 ICIL의 효과가 instriction(그림 3에서 'customer' 또는 'agent')에서 분명한 answer choice를 포함하는 분류 task를 선택하는 것으로부터 온다는 것을 발견하였다. 이는 few-shot in-context learning을 위한 타깃 task와 유사한 demonstration을 찾는 것이 중요하다는 것을 보여준 이전 연구와 대조된다. 각 demonstration의 input instance 분포를 랜덤 문장으로 대체함으로써 손상을 가하는 것은 성능에 크게 해를 끼치지 않는다는 것을 발견하였다. 이 분석에 기반해서 LLM은 instruction, input, output 간의 복잡한 상관성에 의존하는 것보다는 instruction의 answer choice와 추론 중에 각 demonstration의 output 간에 상관성을 학습한다는 가설을 세웠다. 이 가설을 통해 ICIL의 역할은 타깃 task의 answer 분포에 대한 신호를 찾기 위해 LLM이 타깃 instruction에 집중할 수 있게 도와준다.
2. In-Context Instruction Learning
ICIL의 prompt는 그림 3처럼 instruction, input, output의 연결인 cross-task demonstration으로 구성되어 있다.
2-1. Demonstration Set Construction
N 개의 task에서 K 개를 샘플링해서 ICIL을 위한 demonstration으로 제작된다. 이 과정은 우선 task set를 필터링하기 위해 간단한 휴리스틱을 적용하고 필터링된 task 당 single instruction을 랜덤 하게 샘플링한다. 그 휴리스틱은 다음과 같다.
- Task Types: instruction에서 answer choice를 포함하는 분류 task에서만 샘플링을 한다. 논문에서는 instruction에서 answer choice를 포함하는 것은 LLM이 추론 중에 instruction을 따르는 것을 도와준다고 가설을 세웠다.
- Answer Choice Overlap: answer choice의 오버랩은 few-shot in-context learning과 유사하게 LLM이 demonstration의 라벨을 카피하도록 이끈다. 이는 의도치 않은 특성인데, 왜냐하면 answer 분포는 타깃 task에 의존해서 변화하기 때문이다.
- Demonstration Length: demonstration의 길이를 256 토큰으로 제한하였다. 따라서 이 기준을 만족하는 instance만을 샘플링하였다.
- Demonstration Ordering: 각 task에 대한 answer choice의 수를 오름차순으로 하여 demonstration을 정렬하였다.
2-2. In-Context Instruction Learning During Inference
demonstration 샘플링 후에 고정된 세트의 demonstration을 제작하고 instruction과 타깃 task의 input instance의 연결을 demonstration으로 구성된 고정된 prompt에 추가한다. ICIL은 LLM이 instruction을 더욱 잘 따르고 zero-shot 능력을 강화하게 하기 위해 다음과 같은 장점들을 가진다.
- ICIL은 하나의 고정된 prompt를 사용해서 다양한 타깃 task에 대해 다양한 모델을 적용시키고자 하였다. 그래서 ICIL은 외부 툴 없이 새로운 모델 또는 데이터셋에 대해 zero-shot baseline으로 측정되고 복제되기 쉽다.
- ICIL은 다양한 off-the-shelf PLM에 대한 zero-shot task 일반화 성능을 크게 개선시킨다. 이는 역전파 없이 LLM을 더 나은 instruction follower로 만들어 준다.
- ICIL은 특히 100B 파라미터 이상의 모델에 대해 instruction fine-tuned 모델의 성능을 개선시킨다. 이는 ICIL이 zero-shot 일반화를 위해 LLM을 도울 수 있다는 것을 보여준다.
- model-generated demonstration set도 ICIL을 위해 효과적이다. 이는 ICIL이 벤치마크에서 demonstration의 샘플링 없이도 효과적이라는 것을 보여준다.
3. Experiments
3-1. Experimental Setup
논문에서는 ICIL을 위한 demonstration을 만들기 위해 756개의 task로 이루어져 있는 Super-NI의 영어 training task로부터 가지고 왔다. ICIL의 효과를 평가하기 위해 12개의 카테고리에서 총 119개의 task로 구성되어 있는 Super-NI testing의 held-out task를 사용하였다.
Model Types. 총 4개의 다양한 LLM 사용: GPT-3, OPT, GPT-NeoX, GPT-J
3-2. Results
Various pretrained LLMs benefit from ICIL. 그림 1의 왼쪽에서 보이는 것처럼 ICIL은 일관되게 모든 모델 스케일에 대해 pre-trained LLM의 성능을 개선시켰다. 이 간단한 zero-shot in-context learning을 더 많은 파라미터를 사용하는 LLM을 능가할 수 있다는 것을 보여줬다. ICIL은 fine-tuning 또는 역전파 없이 instruction을 따르기 위한 PLM의 능력을 개선시켰다. 게다가 ICIL의 성능 향상은 instruction tuning과 비견될 수준이었다!
The gain from ICIL is complementary to fine-tuning-based instruction learning. 그림 1의 오른쪽에 보이는 것처럼 ICIL은 instruction tuning 또는 RLHF를 통해 fine-tune 된 모델의 성능을 개선시켰다. 이는 fine-tuning 기반의 instruction learning은 larger model에게 불충분하다는 것을 보여주기도 하고 ICIL은 instruction following 능력을 향상시킬 수 있다는 것을 암시한다.
Irrelevant In-Context Instruction Learning does not harm the performance much. 논문에서는 ICIL을 위한 demonstration에 대한 input instance의 분포에 손상을 가하는 것이 성능에 별 해를 끼치지 않는다는 것을 관찰하였다. 그림 4의 아래쪽에 보이는 것처럼, 각 demonstration의 input instance에 손상을 가하는 것은 성능에 해를 끼치지 않는다는 것을 발견하였다. 이는 input & output 상관성은 별 문제가 되지 않고, input instance 분포는 ICIL에 조금의 문제가 된다.
4. Analysis
4-1. Ablation Studies
Instruction and output distribution of the demonstration matters. 논문에서는 각 요소(instruction, input, output)의 분포를 손상시킴으로써 ICIL에 대한 demonstration의 각 요소의 효과를 추가적으로 분석하였다. 그 결과가 다음의 표 1에 나타나 있는데, instruction과 output의 분포를 손상시키는 것이 성능에 상당한 해를 미쳤다. instruction 손상은 zero-shot에 비해 조금 개선된 모습을 보여줬다 input instruction과 달리 instruction & output 분포는 ICIL의 성능에 상당한 영향을 미친다.
Constructing the demonstration set with classification tasks is important. 그림 5a에 보이는 것처럼 평균 zero-shot task 일반화 성능은 분류 task의 비율이 증가함에 따라 증가하였다. 흥미롭게도 분류 task를 더 포함하는 생성 task의 성능도 향상되었다. 이 발견은 타깃 쿼리와 유사한 demonstration을 찾는 것이 few-shot 성능을 향상시킨다는 것인 few-shot in-context learning과 반대되는 결과이다.
Increasing the number of demonstrations improves the performance. 논문에서는 ICIL을 위한 demonstration의 수의 영향을 연구하였다. 결과는 그림 5b에 나타나 있다. demonstration의 수가 증가함에 따라 평균 성능도 개선되었다. 2개의 example을 사용하고도 ICIL의 zero-shot instruction-following 능력을 상당히 개선시켰다. 이는 매우 조금의 zero-shot demonstration set를 사용하는 것으로도 LLM의 성능은 상당히 향상되었음을 보여줬다.
Ordering the demonstrations by the number of answer choices reduces the variances. demonstration set의 서로 다른 순서의 효과를 파악하기 위해 random-ordering을 사용한 answer choice의 수에 기반한 ICIL의 ordering을 비교하였다. 결과는 그림 5c에 나타나 있다. 평균 성능은 두 세팅 간의 큰 차이를 보여주지 않았다. 그리고 answer choice에 기반한 ordering 휴리스틱의 적용은 variance를 줄이고 가장 안 좋은 케이스의 정확도를 개선시켰다.
Answer choice overlap between demonstrations harms the performance. demonstration set를 만들기 위해 사용되는 휴리스틱 중 하나인 demonstration 간의 answer choice overlap의 효과를 분석하였다. 결과는 표 2에 나타나 있다. 이는 answer choice overlap을 가지는 demonstration set는 answer choice overlap을 가지지 않는 것보다 특히 생성 task에 대해 underperform 한다는 것을 보여줬다. 또한 answer choice overlap을 가지는 demonstration set는 long text 생성에 대해 모델이 짧은 시퀀스를 생성하게 만드는 경향이 있거나 demonstration set의 라벨 중 하나를 카피함으로써 output을 예측해서 좋지 않은 일반화를 이끌었다.
4-2. Additional Experiments
ICIL shows effectiveness for machine-generated demonstration sets as well. ICIL은 Super-NI 벤치마크의 training task로부터의 샘플링 대신에 machine-generated demonstration에 대해 어떤 효과를 보여주는지 탐구하였다. ICIL을 위한 demonstration을 만드는데 ChatGPT를 사용하였다. 그림 6a에서 보이는 것처럼 machine-generated demonstration을 사용한 ICIL은 Super-NI의 demonstration을 사용한 ICIL과 유사한 성능을 보여줬고, 기존의 zero-shot setting을 크게 능가하는 모습을 보여줬다. 이러한 발견은 ICIL이 다양한 instruction으로 구성되어 있는 벤치마크로부터 샘플링 프로세스 없이도 효과적이라는 것을 제안하고, 이는 성능 향상을 샘플링을 통한 demonstration의 제작으로부터 오는 것이 아니라 휴리스틱과 ICIL의 형식으로부터 오는 것이라는 것을 가리킨다.
The performance of ICIL is comparable to adaptive in-context learning methods. ICIL과 adaptive in-context learning을 비교하였다. 논문에서는 adaptive in-context learning 세팅을 두 가지로 분류하였는데, 하나는 task-wise이고, 다른 하나는 instance-wise이다.
- task-wise: instruction의 유사도에 기반해서 검색을 진행
- instance-wise: instruction & input의 연결의 유사도에 기반해서 검색을 진행
그림 6b에서 보이는 것처럼 task adaptive와 instance adaptive 모두 ICIL과 유사한 성능을 보여준다. 이는 adaptive in-context learning과 비교해서 ICIL의 고정된 demonstration은 외부 임베딩 모델로부터 더욱 reproducible 하고 자유롭다.
There is still room for improvement for ICIL. ICIL은 기존의 zero-shot task 성능을 능가하였지만, 아직 few-shot 간에는 큰 갭이 존재한다.
5. Discussion
이전 섹션에서는 ICIL의 효과에 대해서 알아보았고, 이번 섹션에서는 ICIL의 역할에 대해서 제안하였다.
Why is constructing the demonstration set from classification tasks important? 그림 5a는 분류 task를 사용하여 demonstration set를 제작하는 것이 ICIL에게 중요하다는 것을 보여줬다. 그렇다면 분류 task와 생성 task의 차이가 무엇일까? 이는 demonstration 제작을 위한 휴리스틱은 instruction에 answer shoice를 포함하는 분류 task만을 고려하였기 때문이다. 이러한 demonstration은 answer 분포에 대해 더욱 명시적인 신호를 가진다. 논문에서는 추론 중에 LLM은 instruction의 answer choice와 demonstration의 라벨 간에 상관성을 학습한다는 가설을 세웠다. 이는 instruction에서 answer choice를 포함하는 문장만을 지워도 ICIL의 성능 하락을 이끌었다.
What does the result of irrelevant ICIL imply? 그림 4와 표 1로부터, ICIL을 위한 demonstration의 input 분포는 별 영향을 끼지치 않지만, 반면에 output & instruction 분포는 성능에 상당한 영향을 끼친다는 것을 발견하였다. 이 관찰은 LLM이 answer choice와 라벨 간의 상관성을 학습한다는 것을 강화하였다. LLM은 instruction, input, output의 복잡한 관계에 의존하기보다는 answer choice를 포함하는 instruction과 라벨 간의 문자열 매칭 같은 간단한 상관성에 집중한다.
What is the role of ICIL? 만약 LLM이 ICIL 중에 demonstration의 라벨과 instruction에서 answer choice의 상관성을 학습한다면, 어떻게 zero-shot task의 일반화를 보조하는 걸까? ICIL 중에 demonstration은 answer 분포의 신호를 찾기 위해 LLM이 instruction에 집중할 수 있도록 만들어주는 신호를 준다고 가설을 새웠다. 이것이 LLM을 instruction을 더 잘 따르도록 만들어 준다. 또한 이것이 demonstration set가 분류 task 뿐만 아니라 생성 task의 성능도 향상시킨다는 것을 제안하였다.
6. Limitations
비록 ICIL은 인상적인 zero-shot task 일반화 성능을 이끌지만, input 시퀀스의 증가된 수 때문에 추론 중에 증가된 computation을 겪는다. 또한 여기에는 아직 few-shot in-context learning 간의 큰 성능 갭을 보여준다.
출처
https://arxiv.org/abs/2302.14691
In-Context Instruction Learning
Instruction learning of Large Language Models (LLMs) has enabled zero-shot task generalization. However, instruction learning has been predominantly approached as a fine-tuning problem, including instruction tuning and reinforcement learning from human fee
arxiv.org