어떻게 Quantization을 진행하는 것이 효과적일까? 🤔

Cartinoe 2023. 9. 18. 10:39

Which quantization method is efficient & effective? 🧐

날이 지나면 지날수록 점점 사이즈가 커져가는 LLM의 판도에서 이들을 손쉽게 효율적 및 효과적으로 사용할 수 있는 방법에는 무엇이 있을까? 요즘에는 다른 method들보다도 quantization, 즉 양자화를 주로 사용하는 추세이다. 이 quantization을 통해 사람들은 고용량 RAM을 가지는 GPU에서도 사용하기가 힘들던 LLM을 훨씬 효율적으로 사용할 수 있게 되었다! 🤗

최소한의 성능 감소로 최적의 효율성을 보여주는 quantization을 위해 HuuggingFace에서는 2가지 quantization method를 제공하고 있다. 바로 BitsAndBytes와 GPTQ이다. 이를 토대로 두 quantization method가 어떤 장단점을 가지는지 직접 비교 및 분석을 진행한 HuggingFace의 블로그 포스트를 보고, 이 블로그 포스트의 마지막 부분에 제시되었던 quantization method의 효율성을 직접 실험을 통해 입증하는 프로젝트를 진행하였다! 프로젝트의 Github Repository는 본 포스트의 마지막 부분에 있는 출처에서 확인하시길 바라겠습니다.

프로젝트를 소개하기에 앞서 블로그 포스트에서 소개한 개념들에 대해 잠깐 짚고 넘어가 보도록 하겠다!

Before start..

각 quantization method에 대해 자세히 더욱 자세하게 알아보고 싶다면 아래의 Resource를 참고해 주시길 바라겠습니다!

Resources

GPTQ blogpost: GPTQ quantization method에 대한 전체적인 개요를 알려주고 사용 방법에 대해 알려줌.
bitsandbytes 4-bit quantization blogpost: 4-bit 양자와와 효율적인 fine-tuning 방식인 QLoRA에 대해서 설명함.
bitsandbytes 8-bit quantization blogpost: bitsandbytes를 활용했을 때 8-bit quantization이 어떻게 되는지 설명함.
Basic usage Google Colab notebook for GPTQ: GPTQ method를 활용하여 어떻게 Transformers 모델을 양자화하고, 추론하는지 등을 알려줌. 그리고 quantized model을 활용하여 어떻게 fine-tuning 하는지 알려줌.
Basic usage Google Colab notebook for bitsandbytes: 4-bit model을 활용해서 어떻게 추론할 수 있는지 보여줌. 그리고 GPT-neo-X를 Google Colab Free GPU에서 사용하는 방법을 알려줌.
Merve's blogpost on quantization: 양자화와 양자화 방법에 대해 자세하게 알려줌.

Pros & Cons Analysis(bitsandbytes, GPTQ) 🆚

HuggingFace의 블로그 포스트에서는 다음과 같이 각 quantization method의 장단점을 소개한다.

The benefits & rooms of improvements of bitsandbytes

Benefits

easy 😙: bitsandbytes는 모델 로드 시에 모든 것을 수행하므로 어떠한 후처리 또는 준비 스텝을 거치지 않아도 됌.
cross-modality interoperability 🧰: 어떠한 modality라고 해도 quantization이 가능함. 따라서 범용성이 넓음.
0 performance degradation when merging adapters ✅: 학습된 adapter를 base model 또는 dequantized model에 어떠한 성능 저하 없이 합칠 수 있음. merging은 GPTQ에서는 지원되지 않음.

Rooms of Improvements

slower than GPTQ for text generation 🐢: bitsandbytes의 4-bit model은 inference 시에 GPTQ보다 느린 속도를 보여줌.
4-bit weights are nor serializable 😓: 현재로서는 4-bit model을 직렬화할 수 없음.

The benefits & rooms of improvements of GPTQ

Benefits

fast for text generation ⏩: text generation 측면에서 GPTQ quantized model은 bitsandbytes quantized model보다 빠른 속도를 보여줌.
n-bit support 🔢: GPTQ 알고리즘은 2bit 이상으로 모델을 양자화할 수 있음. 하지만, 추천되는 bit의 수는 4임.
easily serializable 😊: GPTQ model은 어떤 수의 bit든 직렬화를 지원함.
AMD Support 💽: Nvidia GPU 뿐만 아니라 AMD GPU도 지원됨.

Rooms of Improvements

calibration dataset 😓: GPTQ를 위해서는 calibration dataset이 필요한데, 이로 인해 GPTQ를 사용하려는 사용자들이 줄어듦. 게다가 model을 quantize 하기 위해서는 조금 많은 시간이 소요됨.
works only for language models 😢: GPTQ는 오직 language model을 위해서만 만들어졌음.

Conclusion & Final Words of Blog 🫡

HuggingFace의 블로그 포스트에서는 각 quantization method의 비교를 하고 마지막 부분에 이를 토대로 다음과 같이 quantization을 진행하는 것이 가장 효율적이라는 것을 주장하였다. 필자가 진행한 프로젝트에서는 이러한 주장을 실제 실험을 통해 효율성을 입증하고자 한 것이다.

Suggestion of Blog

bitsandbytes를 사용해서 base model을 양자화함
adapter를 추가하고 fine-tuning
base model 또는 dequantized model의 위에 학습된 adapter를 merge 함
GPTQ를 사용해서 merged model을 quantize 하고, 이를 이용해서 inference를 진행

Experiments 🧪

본 프로젝트에서 진행한 실험은 HuggingFace 블로그 포스트에서 주장한 method가 실제로 효율적 일지 fine-tuning 시의 효율성과 inference 시의 효율성을 비교하며 실험을 진행하였다. 이를 위해 기본적인 setup은 블로그 포스트에서 사용된 setup을 따랐고, 실험과 관련해서 더욱 자세한 내용은 Github Repository를 참고해 주시길 바라겠습니다. baseline은 다음과 같다.

Baselines

fine-tune w/ bitsandbytes & inference w/ bitsandbytes
fine-tune w/ auto-GPTQ & inference w/ auto-GPTQ
fine-tune w/ bitsandbytes & inference w/ auto-GPTQ(proposed method)

Results

Benchmark

각 baseline의 효율성을 평가하기 위해 다음과 같은 카테고리에서 모델을 측정하였다.

Fine-tuning: Throughput per second(steps). 이 지표는 fine-tuning 시에 모델이 초 당 처리하는 스텝의 수를 나타냄.
Inference: Average inference time(s). 이 지표는 한 번의 inference를 수행하기 위해 소요되는 시간을 의미함.

Fine-tuning

아래의 표를 보면 알 수 있듯이, bitsandbytes가 GPTQ보다 더 빠른 fine-tuning 속도를 보여준다. 이 결과는 HuggingFace 블로그 포스트에서 제안되었던 method를 뒷받침해 준다(bitsandbytes를 사용해서 adapter를 fine-tuning)!

Quantization Method	Throughput Per-Second(steps) ⬆️	Fine-tuning time(s) ⬇️
GPTQ	1.45	712
bitsandbytes	2.18	469

Inference

각 baseline의 inference speed를 비교 결과는 다음의 그래프와 같다.

위 그래프를 보면 알 수 있듯이 HuggingFace 블로그 포스트에서 제안된 method(bnb-gptq)가 다른 method에 비해서 더욱 빠른 속도로 inference를 진행한다.

Final Results

이렇게 해서 fine-tuning & inference에 대한 벤치마킹이 완료되었다. 다음의 표는 각 baseline의 종합적인 결과를 보여준다. 다음의 표를 보면 알 수 있듯이 HuggingFace 블로그 포스트에서 제안된 'bnb-gptq'가 다른 모델에 비해 더욱 효과적이라는 것을 알 수 있다!

Method(Baseline)	Throughput Per-Seconf(steps) ⬆️	Inference Speed(step/s) ⬇️
bnb-bnb	2.18	6.06
gptq-gptq	1.45	2.04
bnb-gptq 👑	1.45	1.31

Closing post..

이 프로젝트는 앞서도 말했던 것처럼 HuggingFace의 블로그 포스트인 'Overview of natively supported quantization schemes in 🤗 Transformers' 에서의 주장을 입증하기 위해 진행되었다. 실제로 실험을 통해 블로그 포스트의 주장이 효율적이라는 것을 입증하였으나, 자원의 부족으로 인해 performance degradation 등의 효과적인 측면은 검증하지 못했다. 따라서 이러한 부분은 future work로 남겨두도록 하겠다. 다시 한번 'Overview of natively supported quantization schemes in 🤗 Transformers' 의 모든 author 분들께 감사드린다는 말씀을 드리며 포스트를 마치겠다!

출처

https://huggingface.co/blog/overview-quantization-transformers

Overview of natively supported quantization schemes in 🤗 Transformers

Overview of natively supported quantization schemes in 🤗 Transformers We aim to give a clear overview of the pros and cons of each quantization scheme supported in transformers to help you decide which one you should go for. Currently, quantizing models

huggingface.co

https://github.com/gauss5930/Quantization/tree/main

GitHub - gauss5930/Quantization: The comparison of most popular quantization methods, BitsAndBytes and GPTQ

The comparison of most popular quantization methods, BitsAndBytes and GPTQ - GitHub - gauss5930/Quantization: The comparison of most popular quantization methods, BitsAndBytes and GPTQ

github.com