Paper Reading ๐Ÿ“œ/Natural Language Processing

๐ŸฒBaize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

Cartinoe 2023. 6. 13. 11:17

The overview of this paper

 ChatGPT ๊ฐ™์€ chat ๋ชจ๋ธ๋“ค์€ ์ธ์ƒ์ ์ธ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋ฉด์„œ ๋น ๋ฅด๊ฒŒ ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ์— ์ ์šฉ๋˜์–ด ๋‚˜๊ฐ€๊ณ  ์žˆ๋‹ค. ํ•˜์ง€๋งŒ, ์ œํ•œ๋œ API ๋•Œ๋ฌธ์— ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ์— ์žฅ์• ๋ฌผ์„ ๋งŒ๋“ค๊ณ  ์žˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ChatGPT๋ฅผ ๋Œ€ํ™”์— ์ฐธ์—ฌ์‹œํ‚ค๊ฒŒ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ž๋™์ ์œผ๋กœ high-quality multi-turn chat corpus๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์•ˆํ•˜์˜€๋‹ค. ๊ทธ๋‹ค์Œ์— ์ด ๋ฐ์ดํ„ฐ๋“ค์„ parameter-efficient tuning์œผ๋กœ LLaMA๋ฅผ ํ–ฅ์ƒํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ํƒ„์ƒํ•œ ๋ชจ๋ธ์ด Baize์ด๊ณ , ์ด ๋ชจ๋ธ์€ ๊ฐ€๋“œ๋ ˆ์ผ์ด ์žˆ๋Š” multi-turn dialogue ์„ธํŒ…์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ฒŒ๋‹ค๊ฐ€, ChatGPT์˜ ํ”ผ๋“œ๋ฐฑ์„ ์‚ฌ์šฉํ•˜์—ฌ Baize ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ฐœ์„ ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์ธ Self-Distillation with Feedback(SDF)๋ฅผ ์ œ์•ˆํ•˜์˜€๋‹ค.

 

 

Table of Contents

1. Introduction

2. Data Collection via Self-Chat

3. Model Training

4. Evaluation

5. Conclusion

 

 

1. Introduction

 ChatGPT์™€ GPT-4์ฒ˜๋Ÿผ ๋งŽ์€ LM๋“ค์€ ๊ด„๋ชฉํ• ๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์ง€๋งŒ, ์ด๋“ค์˜ ์ด๋Ÿฐ ์œ ๋งํ•œ ๋Šฅ๋ ฅ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ด๋“ค์— ๋Œ€ํ•œ ์ ‘๊ทผ์€ ์ œํ•œ๋œ API์—์„œ๋งŒ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๋‹จ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด๋Š” ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋˜๋Š” ๋ฐœ์ „์— ์žฅ๋ฒฝ์„ ๋งŒ๋“ค์–ด ๋ฒ„๋ฆฌ๋Š” ์…ˆ์ด๋‹ค.

 

 ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ž๋™์ ์œผ๋กœ high-quality multi-turn chat corpus๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ChatGPT์˜ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด pipeline์„ ์ œ์•ˆํ•˜์˜€๋‹ค(๊ทธ๋ฆผ 1). ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์€ ChatGPT๋ฅผ ์‚ฌ์šฉ์ž์™€ AI ์‘๋‹ต์— ๋ชจ๋‘ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ corpus๋Š” multi-turn ๋Œ€ํ™”์˜ ๋ฌธ๋งฅ์—์„œ chat model์„ ํ‰๊ฐ€ํ•˜๊ณ  ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๊ท€์ค‘ํ•œ ์ž์›์œผ๋กœ ์—ฌ๊ฒจ์ง„๋‹ค.

 

๊ทธ๋ฆผ 1. Baize์™€ Baize v2 ํ•™์Šต์— ๋Œ€ํ•œ pipeline

 

 low-resource ์„ธํŒ…์—์„œ LLM์„ fine-tuneํ•˜๊ธฐ ์œ„ํ•ด parameter-efficient ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ด ์ „๋žต์€ SoTA ๋ชจ๋ธ์„ ํ•œ์ •๋œ ์ž์› ํ™˜๊ฒฝ์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ์œ ์ง€์‹œํ‚ค๋ฉด์„œ ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด ์ค€๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ฃผ๋กœ open-source LLM์ธ LLaMA๋ฅผ ๊ฐœ์„ ์‹œํ‚ค๋Š”๋ฐ ์ง‘์ค‘ํ•˜์˜€๋‹ค. LLaMA๋ฅผ ์ƒ์„ฑ๋œ chat corpus์™€ ํ•จ๊ป˜ fine-tuning ํ•จ์œผ๋กœ์จ ์ƒˆ๋กœ์šด Baize ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜์˜€๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ ๋…ผ๋ฌธ์—์„œ๋Š” Baize์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ์‹œํ‚ค๊ธฐ ์œ„ํ•ด RLHF์— ๋Œ€ํ•œ ๋Œ€์•ˆ์œผ๋กœ Self-Distillation with Feedback(SDF)๋ฅผ ์ œ์•ˆํ•˜์˜€๋‹ค. 

 

 ๋…ผ๋ฌธ์˜ ์ฃผ๋œ contribution์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  • ChatGPT๋ฅผ ๋Œ€ํ™”์— ์ฐธ์—ฌ์‹œํ‚ด์œผ๋กœ์จ ์ž๋™์ ์œผ๋กœ high-quality multi-turn chat corpus๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ณต์‚ฌํ•  ์ˆ˜ ์žˆ๋Š” pipeline์„ ์ œ์•ˆํ•˜์˜€๋‹ค. ๋…ผ๋ฌธ์—์„œ ์†Œ๊ฐœํ•œ pipeline์€ multi-turn dialogue ์„ธํŒ…์—์„œ chat model์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ public resource์˜ ๊ฐ€๋Šฅ์„ฑ ๊ฐญ์„ ์ฑ„์› ๋‹ค.
  • ๋…ผ๋ฌธ์—์„œ๋Š” low-resource ์„ธํŒ…์—์„œ LLaMA ๋ชจ๋ธ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด parameter-efficient tuning๊ณผ SDF๋ฅผ ์ œ์•ˆํ•˜์˜€๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋งค์šฐ ์œ ๋Šฅํ•œ chat model์ธ Baize๋ฅผ ๋งŒ๋“ค์–ด๋ƒˆ๋‹ค.

 

2. Data Collection via Self-Chat

 ์ด ์„น์…˜์—์„œ๋Š” ๋Œ€ํ™”์— ChatGPT๋ฅผ ์ฐธ์—ฌ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ChatGPT๋ฅผ ํ™œ์šฉํ•จ์œผ๋กœ์จ high-quality multi-turn chat corpus๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•๋ก ์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•˜์˜€๋‹ค. ์ด self-chat ํ”„๋กœ์„ธ์Šค๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ pipeline์˜ ํ† ๋Œ€์ด๊ณ  open-source LLM, LLaMA์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒํ•˜๋Š”๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค. 

 

 self-chat process๋Š” ๋ฉ”์‹œ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ChatGPT๋ฅผ ์‚ฌ์šฉ์ž์™€ AI assistant๋กœ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ํฌ๋งท๊ณผ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ •์˜ํ•˜๊ธฐ ์œ„ํ•ด template์„ ์ ์šฉํ•˜์˜€๋‹ค. ๋Œ€ํ™”๋Š” 'seed'๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ•ด์„œ ์ง„ํ–‰๋˜๊ณ , ์ด๊ฒƒ์€ chat์— ๋Œ€ํ•œ ํ† ํ”ฝ์„ ์„ค์ •ํ•˜๋Š” ์งˆ๋ฌธ ๋˜๋Š” ์ค‘์š” ๊ตฌ๋ฌธ์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

 

 Baize๋ฅผ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋…ผ๋ฌธ์—์„œ๋Š” Quora & StackOverflow์˜ question์„ seed๋กœ ์‚ฌ์šฉํ•˜์˜€๋‹ค. self-chat์— ์˜ํ•ด ์ƒ์„ฑ๋œ example์„ ๋‹ค์Œ์˜ ํ‘œ 1์„ ํ™•์ธํ•˜๊ธธ ๋ฐ”๋ž€๋‹ค. Baize์˜ ์ฒซ ๋ฒˆ์งธ ๋ฒ„์ „(Baize v1)์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋…ผ๋ฌธ์—์„œ๋Š” self-chat์„ ํ†ตํ•ด ์ด 111.5K ๊ฐœ์˜ ๋Œ€ํ™”๋ฅผ ์ˆ˜์ง‘ํ•˜์˜€๋‹ค. ๋˜ํ•œ ํŠน์ • ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋œ question๊ณผ ๊ตฌ๋ฌธ์„ ์‚ฌ์šฉํ•ด์„œ ํŠน์ • ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ chat model์˜ ์ง€์‹๊ณผ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋…ผ๋ฌธ์—์„œ๋Š” MedQuAD ๋ฐ์ดํ„ฐ์…‹์„ seed๋กœ ์‚ฌ์šฉํ•ด์„œ ํ—ฌ์Šค์ผ€์–ด์— ํŠนํ™”๋œ Baize ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ๋„ ํ•˜์˜€๋‹ค. 

 

ํ‘œ 1. Quora ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋ง๋œ seed๋ฅผ ์‚ฌ์šฉํ•œ ChatGPT๋กœ ์ƒ์„ฑ๋œ self-chat์˜ example

 

 ๋…ผ๋ฌธ์—์„œ๋Š” Baize v1.5๋ฅผ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋” ๋‚˜์€ ํ€„๋ฆฌํ‹ฐ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์œ„ํ•ด ํ•œ ๋ฒˆ์— ํ•œ ๋ฒˆ์”ฉ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋˜ ๋‹ค๋ฅธ ChatGPT๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ํ…œํ”Œ๋ฆฟ์—์„œ AI์˜ ์‘๋‹ต์„ ์ œ๊ฑฐํ•˜์˜€๋‹ค. ์ด๋Š” ChatGPT ์‘๋‹ต๊ณผ ์™„์ „ํžˆ ์ผ๊ด€๋˜๋Š” ์‘๋‹ต์„ ์–ป๊ธฐ ์œ„ํ•ด์„œ์ด๋‹ค. ์ด๊ฒƒ์€ ๋ณดํ†ต ๋”์šฑ ๊ธธ๊ณ  ๋” ๋งŽ์€ ๋””ํ…Œ์ผ์„ ํฌํ•จํ•œ๋‹ค. ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜จ corpora์˜ ํ†ต๊ณ„๊ฐ€ ํ‘œ 2์— ๋‚˜ํƒ€๋‚˜ ์žˆ๋‹ค.

 

ํ‘œ 2. ๋Œ€ํ™”์˜ ์ˆ˜, ํ„ด์˜ ํ‰๊ท  ์ˆ˜, ๊ฐ ํ„ด์˜ ์‘๋‹ต ๊ธธ์ด์˜ ํ†ต๊ณ„

 

Comparison with Other Sources.  Alpaca ๋ชจ๋ธ์„ instruction learning ํ˜•์‹์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์œ„ํ•ด self-instruct๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ํ•˜์ง€๋งŒ T0๊ณผ FLAN์—์„œ ์†Œ๊ฐœ๋œ instruction-input-output ํ˜•์‹์€ single turn์œผ๋กœ ์ œํ•œ๋˜๊ณ  ChatGPT์˜ ๋Œ€ํ™” ์ธํ„ฐํŽ˜์ด์Šค์™€ ๋‹ค๋ฅด๋‹ค. ์ด์™€๋Š” ๋ฐ˜๋Œ€๋กœ, Baize์˜ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ pipeline์€ ChatGPT์˜ high-quality chat ๋Œ€๋ณธ์„ ํ™œ์šฉํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์ฑ— ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”์‹œํ‚ค๋Š”๋ฐ ์ง‘์ค‘ํ•˜์˜€๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ instruction์„ ๋”ฐ๋ฅด๋Š” Baize์˜ ๋Šฅ๋ ฅ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด Alpaca์˜ ๋ฐ์ดํ„ฐ๋ฅผ training data์— ํฌํ•จํ•˜์˜€๋‹ค.

 

 VIcuna๋Š” shareGPT.com์œผ๋กœ๋ถ€ํ„ฐ ํฌ๋กค๋ง๋œ ๋Œ€ํ™”๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋Š” ๊ฒƒ์˜ ์žฅ์ ์€ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ์˜ high-quality ๋•Œ๋ฌธ์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์†Œ์Šค๋Š” ์ค‘์š”ํ•œ ๊ฐœ์ธ์ •๋ณด์™€ ๋ฒ•์  ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ์‚ฌ์šฉ์ž๋“ค์— ์˜ํ•ด ๊ณต์œ ๋˜๋Š” ์ปจํ…์ธ ๋Š” ๋งค์šฐ ๋ฏผ๊ฐํ•œ ๊ฐœ์ธ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๊ฑฐ๋‚˜ ๋ณต์žกํ•œ ์ €์ž‘๊ถŒ ๋ฌธ์ œ์— ์—ฐ๊ด€๋˜์–ด ์žˆ์„ ์ˆ˜๋„ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค์™€ ๋‹ฌ๋ฆฌ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ self-chat pipeline์€ ์ €์ž‘๊ถŒ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๊ฑฑ์ • ์—†์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์œ„ํ•œ ์‹ ๋ขฐ๋„ ์žˆ๊ณ  scalable ํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค.

 

3. Model Training

Parameter-Efficient Supervised Fine-tuning.  ๊ธฐ์กด์˜ fine-tuning์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์ปดํ“จํŒ… ์ž์› ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ high-quality & ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ํ•„์š”๋กœ ํ•œ๋‹ค. ํ•˜์ง€๋งŒ high-quality multi-turn chat corpora์˜ ์ œํ•œ๋œ ๊ฐ€์šฉ์„ฑ์ด ์ฃผ์–ด์ง€๋ฉด, ๋ฐ์ดํ„ฐ & ์ปดํ“จํŒ… ์ž์› ํŠน๋ฉด์—์„œ ๋”์šฑ ํšจ์œจ์ ์ธ method๋ฅผ ์ ์šฉ์‹œํ‚ค๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. ์—ฌ๊ธฐ์„œ parameter-efficient tuning method๋Š” ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ์˜ ๋” ๋‚˜์€ ์‚ฌ์šฉ์„ ๋งŒ๋“ค๊ณ  ๊ด‘๋ฒ”์œ„ํ•œ ์ž์› ํ™œ์šฉ์— ๋Œ€ํ•œ ํ•„์š”๋ฅผ ์ตœ์†Œํ™”ํ•จ์œผ๋กœ์จ ์ด ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ฃผ์—ˆ๋‹ค. 

 

 ๋…ผ๋ฌธ์—์„œ๋Š” LLaMA ๋ชจ๋ธ์„ ํŠœ๋‹ํ•˜๊ธฐ ์œ„ํ•ด LoRA๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๊ณ  ์ ์‘ ๋Šฅ๋ ฅ์„ ์ฆ๊ฐ€์‹œํ‚ค๊ธฐ ์œ„ํ•ด LoRA๋ฅผ LLaMA์˜ ๋ชจ๋“  ์„ ํ˜• ๋ ˆ์ด์–ด์— ์ ์šฉํ•˜์˜€๋‹ค. ํ‘œ 3์— ๊ฐ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋‚˜์—ด๋˜์–ด ์žˆ๋‹ค.

 

ํ‘œ 3. Baize ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ, ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜์™€ training time

 

Self-Distillation with Feedback(SDF).  Baize v1.5์— ๊ธฐ๋ฐ˜ํ•ด์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๊ณ  ๊ทธ ๊ฒฐ๊ณผ๋กœ Baize v2๊ฐ€ ๋‚˜์™”๋‹ค. self-chat ๋ฐ์ดํ„ฐ์—์„œ supervised fine-tuning ํ›„์— ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜จ Baize v1.5 ๋ชจ๋ธ์„ Quora ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ instruction์— ๋Œ€ํ•œ 4๊ฐœ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๊ทธ๋‹ค์Œ์— ChatGPT๋กœ self-distillation์„ ์œ„ํ•œ ์ตœ๊ณ ์˜ ์‘๋‹ต์„ ๊ณ ๋ฅด๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜์˜€๋‹ค. 

 

 new LoRA๋Š” ChatGPT์— ์˜ํ•ด ์„ ํƒ๋œ ์ตœ๊ณ ์˜ ์‘๋‹ต์— ๋Œ€ํ•ด์„œ ์ตœ์ ํ™”๋œ ๋ฐฉ๋ฒ•์ด๋‹ค. self-distillation ๊ณผ์ •์—์„œ new LoRA๋ฅผ Baize v1.5์˜ ๋ชจ๋“  ์„ ํ˜• ๋ ˆ์ด์–ด์— ์ ์šฉํ•˜์˜€๋‹ค. SDF๋Š” RLHF์˜ ๋Œ€์•ˆ์œผ๋กœ Reward model์ด ํ•„์š”ํ•˜์ง€ ์•Š๊ณ , 3๋ฐฐ ๋” ๋น ๋ฅธ ์†๋„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

 

 SDF๋Š” Baize ์ž์‹ ์— ๋Œ€ํ•œ ์ƒ์„ฑ์—์„œ distillation์„ ํฌํ•จํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ „๋ฐ˜์ ์œผ๋กœ ๋‚ฎ์€ loss๋ฅผ ๊ฐ€์ง€๊ณ , ์ด๋Š” ๋ชจ๋ธ์ด ํ”ผ๋“œ๋ฐฑ์—์„œ ๋‰˜์•™์Šค๋ฅผ ์บก์ฒ˜ํ•˜๊ณ  catastrophic forgetting ์—†์ด fine-grained optimization์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ํ—ˆ๋ฝํ•ด ์ค€๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” preference๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ChatGPT๋ฅผ ์‚ฌ์šฉํ•˜๋Š” SDF๋ฅผ ์‚ฌ์šฉํ•˜์˜€์ง€๋งŒ, ์ด ๊ธฐ์ˆ ์€ human feedback๊ณผ๋„ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ฏฟ๋Š”๋‹ค.

 

 

4. Evaluation

GPT-4 Score.  ๋…ผ๋ฌธ์—์„œ๋Š” Baize์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด GPT-4๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‰๊ฐ€ํ•˜๋Š” Vicuna Evaluation์„ ํ™œ์šฉํ•˜์˜€๋‹ค. before SDF Baize v2 & after SDF Baize v2์™€ ChatGPT๋ฅผ ๋น„๊ตํ•˜๊ณ , ์ด์™ธ์— ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค๋„ ๋น„๊ตํ•ด๋ณด์•˜๋‹ค. ๊ทธ๋ฆผ 2์—์„œ ๋ณด์ด๋Š” ๊ฒƒ์ฒ˜๋Ÿผ Baize v2 7B๋Š” Vicuna 7B๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ๊ณ , Baize v2 13B๋Š” Vicuna 13B์™€ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ๋‹ค. VIcuna๋Š” fully fine-tune ๋˜์–ด ์žˆ๋Š” ์ƒํƒœ์ž„์—๋„ ๋ง์ด๋‹ค.

 

๊ทธ๋ฆผ 2. Baize, LLaMA, Alpaca, Vicuna, ChatGPT์™€์˜ ์„ฑ๋Šฅ ๋น„๊ต

 

Qualitative Study.  ๋…ผ๋ฌธ์—์„œ๋Š” Baize์˜ ๋Šฅ๋ ฅ์„ ์„ค๋ช…ํ•˜๋Š” example ๋˜ํ•œ ์ œ๊ณตํ•˜์˜€๋‹ค. ๊ฐ ์นดํ…Œ๊ณ ๋ฆฌ์˜ example์€ ์ฒ˜์Œ์„ ์‹œ๋„๋œ ๊ฒƒ์ด๋ผ๋ฉด not cherry-picked๋กœ, ๋‹ค์–‘ํ•œ ๋Œ€ํ™”๋กœ๋ถ€ํ„ฐ ์„ ํƒ๋œ ๊ฒƒ์ด๋ผ๋ฉด cherry-picked๋กœ ํ‘œ๊ธฐํ•˜์˜€๋‹ค. ํ‘œ 4์—์„œ๋Š” chat model์ด ์–ด๋–ป๊ฒŒ ๊ธˆ์œต ์‚ฌ๊ฑด์„ ๋ถ„์„ํ•˜๋Š”์ง€ ๋ณด์—ฌ์ฃผ๊ณ , ํ‘œ 5์—์„œ๋Š” ์กฐํฌ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค.

 

ํ‘œ 4. ๋ฆฌ๋งŒ ํ˜•์ œ์˜ ํŒŒ์‚ฐ์„ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด chat model์—๊ฒŒ ๋ฌผ์–ด๋ณธ example

 

ํ‘œ 5. ์กฐํฌ๋ฅผ ์„ค๋ช…ํ•˜๋„๋ก chat model์— ๋ฌผ์–ด๋ณธ example

 

 

 ์ฑ—๋ด‡์— ๋Œ€ํ•ด ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ๋„ ์ค‘์š”ํ•˜์ง€๋งŒ, ๋ชจ๋ธ์˜ ์ž˜๋ชป๋œ ์‚ฌ์šฉ์„ ์˜ˆ๋ฐฉํ•˜๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•˜๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ๋ชจ๋ธ์ด ๋น„์œค๋ฆฌ์  ์งˆ๋ฌธ์„ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š”์ง€ 2๊ฐ€์ง€ example์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋‘ ๊ฐ€์ง€ example์€ Baize๊ฐ€ ์„ฑ๊ณต์ ์œผ๋กœ ๋ถ€๋„๋•ํ•œ ์š”์ฒญ์„ ๊ฑฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.

 

ํ‘œ 6. ์‚ฌ์šฉ์ž๋กœ๋ถ€ํ„ฐ ๋ถ€๋„๋•์ ์ธ ์š”์ฒญ์ด ๋“ค์–ด์™”์„ ๋•Œ chat model์ด ์–ด๋–ป๊ฒŒ ์‘๋‹ตํ•˜๋Š”์ง€์˜ example

 

 ๋งˆ์ง€๋ง‰์œผ๋กœ Baize์˜ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ์„ ํ‘œ 7์—์„œ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค.

 

ํ‘œ 7. ์ฝ”๋”ฉ ์งˆ๋ฌธ์˜ example

 

 ์ถ”๊ฐ€์ ์œผ๋กœ general Baize ๋ชจ๋ธ์„ ์œ„ํ•ด ํ—ฌ์Šค์ผ€์–ด ์ „๋ฌธ๊ฐ€์˜ ๋„์›€์„ ๋ฐ›์•„ Baize-Healthcare๋ฅผ ํ…Œ์ŠคํŠธํ•˜์˜€๋‹ค. ํ•˜๋‚˜์˜ ์˜ˆ์‹œ๊ฐ€ ํ‘œ 8์— ๋‚˜ํƒ€๋‚˜ ์žˆ๊ณ , ํ—ฌ์Šค์ผ€์–ด ์ „๋ฌธ๊ฐ€๋Š” Baize-Healthcare์˜ ์‘๋‹ต์ด ์ ์ ˆํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ•ด์ฃผ์—ˆ๋‹ค.

 

ํ‘œ 8. ํ—ฌ์Šค์ผ€์–ด ์งˆ๋ฌธ์— ๋Œ€๋‹ตํ•˜๋Š” Baize-Healthcare์˜ example

 

5. Conclusion

 open-source chat ๋ชจ๋ธ Baize์™€ ๊ตฌ์ฒด์  ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ์ž๋™์ ์œผ๋กœ seed๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋Š” pipeline์„ ์ œ์•ˆํ•˜์˜€๋‹ค. ChatGPT ์ž์‹ ๊ณผ ๋Œ€ํ™”ํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ high-quality ๋Œ€ํ™” corpus๋ฅผ ์ˆ˜์ง‘ํ•˜์˜€๋‹ค.

 

Limitations

 

Foundation Model.  ๋‹ค๋ฅธ LM๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ Baize๋Š” hllucination๊ณผ ์œ ๋…์„ฑ, ๊ณ ์ •๊ด€๋…์„ ๊ฒช๋Š”๋‹ค. ํŠนํžˆ LLaMA๋Š” 82% ์ด์ƒ์ด 2020๋…„ ์ด์ „์˜ ๋ฐ์ดํ„ฐ์ด๊ธฐ ๋•Œ๋ฌธ์— Baize๋Š” ํŠน์ • ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์‹œ๊ฐ„์ด ์ง€๋‚œ ๋Œ€๋‹ต์„ ๋‚ด๋†“์„ ์ˆ˜๋„ ์žˆ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ LLaMA๋Š” 20๊ฐœ ๋‚จ์ง“์˜ ์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋น„์˜์–ด๊ถŒ ์–ธ์–ด์— ๋Œ€ํ•ด์„œ๋Š” ์ œํ•œ๋œ ์–‘์˜ corpus๋ฅผ ์ง€๋‹Œ๋‹ค.

 

Evaluation.  ๋…ผ๋ฌธ์—์„œ๋Š” GPT-4๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž๋™์ ์œผ๋กœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ํ•˜์ง€๋งŒ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ธด ์‘๋‹ต๊ณผ ์œ„์น˜ ํŽธํ–ฅ์— ๋Œ€ํ•ด ๋” ๊ฐ•ํ•œ ์„ ํ˜ธ๋„๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒƒ์„ ์ฐพ์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋…ผ๋ฌธ์—์„œ๋Š” human evaluation์ด ๋น„๋ก ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋” ๋งŽ์ด ๋“ค์ง€๋งŒ ๋”์šฑ ์—„๊ฒฉํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ‰๊ฐ€๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ฏฟ๋Š”๋‹ค.

 

Safety and Access Control.  ChatGPT์™€ ๋‹ฌ๋ฆฌ Baize๋Š” unwanted ํ–‰๋™์„ ์–ต์ œํ•˜๊ธฐ ์œ„ํ•ด human feedback์— ์˜์กดํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ทธ ๋Œ€์‹ ์— Baize๋Š” ChatGPT๋ฅผ ํ‰๋‚ด ๋ƒ„์œผ๋กœ์จ unwanted ํ–‰๋™์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šตํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ํ–‰๋™์„ ๊ฐ€์ด๋“œํ•˜๊ธฐ ์œ„ํ•ด ๋ช…์‹œ์  prompt๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค. ํ•˜์ง€๋งŒ, ์—ฌ๊ธฐ์— ์•…์˜์ ์ธ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ Baize์˜ ์‚ฌ์šฉ๊ณผ ๊ด€๋ จ๋œ ์ž ์žฌ์ ์ธ ๋ฆฌ์Šคํฌ๋ฅผ ์ธ์ •ํ•ด์•ผ ํ•œ๋‹ค. ํŠนํžˆ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต๊ฐœํ•จ์— ๋”ฐ๋ผ ๋”์šฑ ๋ง์ด๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Baize๋ฅผ ๊ธฐ๋ณธ template์„ ์‚ฌ์šฉํ•ด์„œ ํ‰๊ฐ€ํ•˜์˜€์ง€๋งŒ, prompt์˜ ๋ณ€๊ฒฝ์€ ์ž ์žฌ์ ์œผ๋กœ ๊ฐ€๋“œ๋ ˆ์ผ์„ ์—†์•จ ์ˆ˜๋„ ์žˆ๋‹ค. ๊ทธ๋ž˜๋„ ๋‹คํ–‰์ธ ๊ฒƒ์€ ๋…ผ๋ฌธ์˜ ์ถ”๊ฐ€์ ์ธ ํŠœ๋‹์ด ์ด๋Ÿฌํ•œ ๋ฆฌ์Šคํฌ๋ฅผ ์ค„์˜€๋‹ค๋Š” ์ ์ด๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฆฌ์Šคํฌ์˜ ์ค‘์š”์„ฑ์— ๋Œ€ํ•ด ์ธ์ง€ํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ์˜ ์ค‘์š”์„ฑ๊ณผ ์—ฐ๊ตฌ ๋ชฉ์  ์™ธ์˜ Baize์˜ ์‚ฌ์šฉ์„ ๊ธˆํ•˜๋Š” ๊ฒƒ์„ ๊ฐ•์กฐํ•˜์˜€๋‹ค.

 

 

 

 

์ถœ์ฒ˜

https://arxiv.org/abs/2304.01196

 

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

Chat models, such as ChatGPT, have shown impressive capabilities and have been rapidly adopted across numerous domains. However, these models are only accessible through a restricted API, creating barriers for new research and progress in the field. We pro

arxiv.org