Vicuna🐪: An Open-Source Chatbot Impressing GPT-4 리뷰

Paper Reading 📜/Natural Language Processing

Vicuna🐪: An Open-Source Chatbot Impressing GPT-4 리뷰

Cartinoe 2023. 6. 17. 14:21

The overview of 'Vicuna'

Vicuna 13B는 ShareGPT로부터 수집된 user-shared 대화에서 fine-tuned LLaMA에서 학습된 open-source 챗봇이다. GPT-4를 평가자로 사용한 사전 평가는 Vicuna-13B가 OpenAI ChatGPT와 Google Bard의 90%에 해당하는 퀄리티를 달성하는 반면 LLaMA와 Alpaca보다 90%의 경우에 더 나은 모습을 보여줬다. Vicuna-13B의 학습 비용은 300$ 정도이다. 그리고 Vicuna의 코드와 가중치는 비상업적 사용에 한해서 공개되었다.

How Good Is Vicuna?

70K user-shared ChatGPT 대화를 사용하여 Vicuna를 fine-tuning 한 후에, Vicuna는 Alpaca와 비교해서 더욱 디테일하고 잘 짜인 응답을 만들 수 있어졌다.

하지만 챗봇을 평가하는 것은 간단한 task가 아니다. 최근의 GPT-4의 발전과 함께 GPT-4의 능력이 벤치마크 생성과 성능 평가를 위한 다동화된 평가를 가능하게 해주는 human-like level에 도달할 수 있는지 없는지 궁금하였다. 실험을 통해 발견한 점은 GPT-4가 챗봇 대답과 비교할 때 꽤 일관된 랭크와 디테일한 평가를 생성할 수 있다는 것을 가리킨다. GPT-4의 평가에 기반해서 요약된 그림 1에서는 Vicuna가 Bard/ChatGPT의 90%에 달하는 능력을 달성한다는 것을 발견하였다. 이 제안된 프레임워크는 챗봇 평가를 자동화하기 위한 잠재력을 보여주지만, 아직 완벽한 접근법은 아니다. 챗봇을 위한 평가 시스템을 만드는 것은 아직 open question이어서 향후 연구를 필요로 한다.

Overview

최근에 LLM은 엄청난 발전을 거듭하며 놀라운 성능을 보여주고 있지만, 대부분의 모델은 학습 방법과 구체적인 architecture가 공개되지 않아 이 분야의 연구와 open-source화를 방해하고 있다. Meta의 LLaMA와 Stanford의 Alpaca 프로젝트에 영감을 받아서 개선된 데이터셋으로 이루어지고, 쉽게 사용가능하고, scalable 한 infrastructure를 갖는 open-source 챗봇인 Vicuna-13B를 소개하였다. ShareGPT.com으로부터 수집된 used-shared 대화에서 LLaMA base model을 fine-tuning 함으로써 Vicuna-13B는 Stanford Alpaca와 같은 open-source 모델과 비교해서 견줄 만한 성능을 갖게 되었다.

그림 2는 Vicuna가 만들어진 개요를 보여준다. 시작에 앞서, ShareGPT.com으로부터 70K 개의 대화 데이터를 수집하였다. 그 다음에 multi-round 대화와 long sequence를 더욱 잘 다루기 위해 Alpaca에 의해 제공되는 training script를 향상시켰다. 그리고 80개의 다양한 question set를 생성하고 model output을 평가하기 위해 GPT-4를 활용함으로써 모델 퀄리티의 평가를 수행하였다. 2개의 서로 다른 모델을 비교하기 위해 각 모델의 output을 각 question에 대한 하나의 prompt로 묶었다. 그다음에 이 prompt는 GPT-4에 보내져서 어떤 모델의 응답이 더 나은지 평가된다. LLaMA, Alpaca, ChatGPT, Vicuna에 대한 디테일이 표 1에 나타나 있다.

Training

Vicuna는 public API와 ShareGPT.com으로부터 수집된 거의 70K 개의 user-shared 대화 데이터를 사용해서 LLaMA base model을 fine-tune 함으로써 생성되었다. 데이터 퀄리티를 보장하기 위해 HTML을 마크다운으로 다시 변환하고 부적절하거나 low-quality 샘플을 필터링해낸다. 추가적으로 길이가 있는 대화를 모델의 최대 context length를 만족하는 smaller segment로 나눴다.

Vicuna의 training recipe는 Stanford Alapca의 위에 다음의 개선점을 추가하였다.

Memory Optimizations: Vicuna의 long context 이해를 가능하게 하기 위해 max context length를 Alpaca에서 사용한 512에서 2048로 늘렸다. 이것은 GPU의 필요를 상당히 증가시키는데 이는 gradient checkpointing과 flash attention을 사용함으로써 해결하였다.
Multi-round Conversation: multi-round 대화를 설명하고 챗봇의 output에서 fine-tuning의 loss를 계산하기 위해 training loss를 조정하였다.
Cost Reduction via Spot Instance: training을 위한 40배 더 큰 데이터셋과 4배 더 긴 시퀀스의 길이는 학습 비용 측면에서 상당한 어려움을 표출한다. 그리고 선취권을 위한 auto-recovery를 사용하는 더욱 싼 spot instance와 aito zone switch를 활용함으로써 cost를 줄이기 위한 SkyPilot managed spot을 사용하였다.

How To Evaluate a Chatbot?

AI 챗봇을 평가하는 task는 상당히 어려운데, 언어 이해와 추론, 문맥 이해를 요구하기 때문이다. AI 챗봇이 더욱 발전됨에 따라 현재의 open 벤치마크는 더 이상 충분하지 않을 수도 있다. 이러한 문제점을 해결하기 위해 챗봇 성능 평가를 자동화하기 위해 GPT-4에 기반을 둔 평가 프레임워크를 제안하였다.

첫 번째로 챗봇 성능의 다양한 측면을 데스트하기 위한 8개의 question 카테고리를 고안하였다. 신중한 prompt engineering을 통해 GPT-4는 baseline model이 어려움을 겪는 다양하고 어려운 question을 생성할 수 있었다. 각 카테고리 당 10개의 question을 선택하고 5개의 챗봇(LLaMA, Alapca, ChatGPT, Bard, Vicuna)으로부터 응답을 수집하였다. 그다음에 GPT-4에게 물어봐서 이들의 응답을 helpfulness, relevance, accuracy, detail에 기반해서 퀄리티를 평가하였다. GPT-4는 비교적 일관적인 score를 산출할 뿐만 아니라 왜 이런 score가 주어졌는지에 대한 디테일한 설명도 제공해 준다. 하지만, GPT-4도 코딩/수학 task를 평가하는 데는 매우 좋지 않았다.

그림 3은 모든 baseline과 Vicuna 간의 비교 결과를 보여준다. GPT-4는 Vicuna를 기존 SoTA open-source 모델(LLaMA, Alapca)보다 90% 이상의 question에서 더 선호하였고, 상업용 모델과도 견줄 만한 성능을 달성하였다. GPT-4는 퀄리티 score를 총 10점으로 해서 평가하기 때문에, 각 비교 쌍(baseline, Vicuna)를 80개의 question에서 각 모델에 의해 얻어진 score를 종합해서 total score를 비교하였다. 표 2에서 보이는 것처럼 Vicuna의 total score는 ChatGPT의 92%이다.

이 제안된 평가 프레임워크는 챗봇을 평가하기 위한 잠재력을 보여주지만, 아직 LLM이 hallucinate를 일으키는 것처럼 아직 완벽한 방법은 아니다. 쳇봇을 위한 종합적이고, 기준화 된 평가 시스템은 추가적인 연구를 필요로 하는 open question으로 남아있다.

Limitations

다른 LLM과 유사하게 Vicuna는 특정 한계를 가진다. 예를 들어 추론 또는 수학 task에 대해 별로 좋지 못하고, 자신의 output의 사실적 정확도를 탐지하는데 어려움을 겪는다. 그리고 아직 충분하게 safety를 보장하거나 잠재적 toxiciry 또는 bias를 완화하도록 최적화하지 않았다. 그럼에도 불구하고 Vicuna가 이러한 한계점들을 해결하기 위한 향후 연구의 시작점으로 여겨질 것이라고 예상한다.

출처

https://lmsys.org/blog/2023-03-30-vicuna/

Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org

<p>We introduce Vicuna-13B, an open-source chatbot trained by fine-tuning LLaMA on user-shared conversations collected from ShareGPT. Preliminary evaluation ...

lmsys.org