
์ด๋ป๊ฒ Quantization์ ์งํํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ๊น? ๐ค
Which quantization method is efficient & effective? ๐ง ๋ ์ด ์ง๋๋ฉด ์ง๋ ์๋ก ์ ์ ์ฌ์ด์ฆ๊ฐ ์ปค์ ธ๊ฐ๋ LLM์ ํ๋์์ ์ด๋ค์ ์์ฝ๊ฒ ํจ์จ์ ๋ฐ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ์๋ ๋ฌด์์ด ์์๊น? ์์ฆ์๋ ๋ค๋ฅธ method๋ค๋ณด๋ค๋ quantization, ์ฆ ์์ํ๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋ ์ถ์ธ์ด๋ค. ์ด quantization์ ํตํด ์ฌ๋๋ค์ ๊ณ ์ฉ๋ RAM์ ๊ฐ์ง๋ GPU์์๋ ์ฌ์ฉํ๊ธฐ๊ฐ ํ๋ค๋ LLM์ ํจ์ฌ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋์๋ค! ๐ค ์ต์ํ์ ์ฑ๋ฅ ๊ฐ์๋ก ์ต์ ์ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ๋ quantization์ ์ํด HuuggingFace์์๋ 2๊ฐ์ง quantization method๋ฅผ ์ ๊ณตํ๊ณ ์๋ค. ๋ฐ๋ก BitsAndBytes์ GPTQ์ด๋ค. ์ด๋ฅผ ํ ๋๋ก ๋ q..