The Overview 현존하는 많은 instruction-following 모델은 강력한 성능을 보여주고 있다. 하지만 이들은 아직 비속어를 사용하거나 잘못된 정보를 생성하는 등의 결함을 보여주고 있다. 이러한 문제를 해결하기 위해 academic community의 참여가 중요하지만, 학계에서 instruction-following 모델에 대해 연구를 진행하는 것은 한정된 자원에서 이러한 모델들에 쉽게 접근할 수 없기에 쉽지가 않다.. 😭 Alpaca를 공개한 Stanford 연구팀에서는 Meta의 LLaMA 7B 모델로 fine-tune된 instruction-following 모델인 Alpaca를 소개하였다. (요즘 모델들은 동물 이름으로 만드는 것이 트렌드인 게 분명하다..!! 😆) 여기에서 A..
The overview of this paper LM은 종종 예상치 못한 방법으로 사용자에게 해를 가할 수도 있다. 이전의 연구들에서는 human annotator로부터 harmful의 특성을 정의하게 하는 방식을 사용하였다. 하지만, human annotator는 비용이 비싸고, test case의 다양성과 수에 제약이 걸린다는 단점이 있다. 이 논문에서는 다른 LM을 사용해서 "red teaming" test case를 정의함으로써 타깃 LM이 harmful way로 행동하는 케이스를 자동적으로 찾는 방법을 제안하였다. 그리고 공격적인 콘텐츠를 감지하도록 학습된 classifier를 사용하여 생성된 테스트 질문에 대한 대상 LM의 응답을 평가하고 280B LM 챗봇에서 수만 개의 공격적인 응답을 발견..
The overview of this paper 거대 instruction-tuned LM은 새로운 task에 대해 zero-shot으로 일반화하는 좋은 능력을 보여주고 있다. 그럼에도 불구하고 이들은 양, 다양성, 창의성이 한정되어 있는 human-written instruction data에 크게 의존하고 있다. 이는 tuned model의 일반화 능력을 방해한다. 논문에서는 LM의 생성을 활용해서 PLM의 instruction-following 능력을 개선시켜 주는 프레임워크인 Self-Instruct를 소개하였다. Self-Instruct의 파이프라인은 LM으로부터 instruction, input, output 샘플을 생성하고, 이들을 사용해서 기존 모델을 fine-tune 하기 전에 기준에 따..
The overview of this paper 논문에서는 7B to 65B foundation LM의 모음인 LLaMA를 소개하였다. 이 모델은 수 조 개의 토큰에서 학습되었고, publicly available 데이터셋을 사용한 학습만으로도 SoTA 모델을 달성할 수 있을 정도의 성능을 보여줬다. 특히 LLaMA-13B는 거의 대부분의 벤치마크에서 GPT-3을 능가했고, LLaMA-65B는 Chinchilla-70B와 PaLM-540B 같은 최고의 모델과 견줄 만한 성능을 보여줬다. 그리고 가장 환상적인 점은 이 모델들은 모두 research community에 공개되었다는 점이다. Table of Contents 1. Introduction 2. Approach 3. Main Results 4. I..
The overview of this paper 이 논문에서는 주어진 compute budget에서 transformer LM을 학습시키기 위한 최적의 모델 사이즈 & 토큰의 수를 조사하였다. 그 결과, 현재의 모델들은 상당히 under-train 되어 있다는 사실을 밝혔다. 현재 많은 연구들은 모델의 사이즈는 scaling 하지만, training data의 양은 크게 변화시키지 않고 있다. 논문에서는 여러 모델 사이즈와 토큰의 수에 대해 실험을 진행하고 compute-optimal training을 위해 모델 사이즈와 training 토큰의 수는 똑같이 scale 되어야 한다는 사실을 밝혀냈다. 논문에서는 이를 검증하기 위해 Gopher와 똑같은 compute budget을 사용하지만 70B 파라미터..
이번 논문 리뷰는 기존 방식과 다르게 powerpoint로 작성하였다. 논문의 간단한 개요는 다음과 같고, 논문에 대한 자세한 내용은 첨부된 powerpoint 파일을 확인하길 바란다. powerpoint의 메모와 슬라이드 노트에 설명을 적어뒀으니 참고하길 바란다. 이 포스팅은 다음의 유튜브를 참고하여 작성되었다. The overview of this paper 논문에서는 LM이 유용(helpful)하고 유해하지 않게(harmless)하게 작동하도록 preference modeling(PM)과 사람의 피드백으로부터 강화학습(RLHF)를 적용하여 fine-tune 되었다. 논문에서는 이러한 alignment training이 대부분의 NLP 평가에서 성능을 향상시키고, python 코딩 또는 요약과 같은 ..
The overview of this paper 최근에 multi-task prompted fine-tunig(MT)라고 알려져 있는 다양한 task에서 instruction-tune하는 LM은 unseen task에 대해 일반화하는 능력을 보여주고 있다. 이전의 연구에서는 강력한 MT LM을 만드는데는 학습 task의 수를 늘리는 것이 중요한 요소라고 밝혔었다. 하지만, 이 논문에서는 오직 하나의 task에서 학습된 expert LM이 300개 이상의 서로 다른 task에서 학습된 MT LM을 능가한다는 있다는 것을 보여줬다. 이 발견은 이전의 task의 수를 늘리면 강력해진다는 믿음에 의문을 제기하였다. 이 발견을 통해 논문에서는 단일 MT LM 대신 학습 task 당 별도의 expert LM을 학습..
The overview of this paper LM을 instruction으로 표현되어 있는 데이터셋 모음에서 fine-tune하는 것은 향상된 성능과 unseen task에 대한 일반화를 보여주고 있다. 이 논문에서는 instruction fine-tuning을 특별한 관점에서 들여다 보았다. task의 수 늘리기 모델 사이즈 늘리기 CoT 데이터에서 fine-tune 위의 측면을 사용한 instruction fine-tuning은 성능을 상당히 향상시키는 모습을 보여젔다. 전반적으로 instruction fine-tuning은 성능과 pre-trained LM의 가용성을 향상시키기 위한 일반적인 방법이다. Table of Contents 1. Introduction 2. Flan Finetuning..
The overview of this paper Meta-training은 task instruction과 입력 인스턴스가 주어지면 타깃 라벨의 가능성을 최대화함으로써 다양한 downstream task에서 LM을 fine-tune 한다. 이 training은 모델의 zero-shot task 일반화를 향상시킨다. 하지만, meta-trained LM도 meta-training 중에 본 적 없던 새로운 라벨을 포함하는 task에 대해서 일반화하는데 어려움을 겪고 있다. 이를 해결하기 위해서 이 논문에서는 Flipped Learning을 제안하였다. 이 방법은 기존의 meta-training과 반대로, 입력 인스턴스와 라벨이 주어지면 task instruction을 생성하도록 LM을 학습시킨다. Flipp..
The overview of this paper 어떻게 NLP 모델들은 task instruction이 주어질 때 다양한 unseen task에 대해서 그렇게 잘 일반화할 수 있을까? 이 질문을 해결하기 위해 논문에서는 1,616개의 다양한 NLP task의 벤치마크와 이들의 전문가가 작성한 instruction을 포함하고 있는 Super-Natural Instructions를 소개하였다. 이 크고 다양한 task의 모음은 instruction 하에서 cross-task 일반화의 철저한 벤치마크를 보여주고 있다 - 모델이 task의 서브셋에서 instruction을 따르도록 학습시키고 남아 있는 unseen task에 대해서 평가하도록 하였다. 게다가 논문에서는 다양한 문맥 instruction을 따르도..