- Redditに「LLMの量子化の影響を調べてみた」という投稿が上がっていました。
- LLMの量子化では、最小で2bit近く(ファイルサイズ1/8程度)まで圧縮できますが、圧縮率を高めると出力の質が低下することが知られています。
- ただ量子化による変質はperplexityという指標で測定されることが多く、perplexityをそのまま出力の質を表す値として捉えることには疑義があるようです(元のモデルとの誤差を表しているに過ぎない)。
- この投稿では、GGUFフォーマットの多岐にわたる量子化モデルを、実際に同一のプロンプトでテストした結果がまとめられています。
- 投稿者の見解として、以下のような解釈が綴られています。
- 一般的には、4bitの量子化まではモデルへの影響がごく限られ、ほとんど出力の劣化に気づかないとされています(と思います)。
- ただ最近llama.cppに立て続けに実装された新しい量子化によって精度が改善し、3bitクラスでも良い感じに使えるようになったようです。
- IQ3_XXSだと、45BパラメータのMixtral 8x7Bでも18GBほどまで圧縮され、私の16GB VRAM + CPUオフロードという環境でもかなり実用的に使えています。
- なお上記のテストは「7Bx2のMoEというマイナーなタイプのモデルを使用」+「ほぼ単一のプロンプト」という条件で行われているようなので、あくまで参考データという風に捉えるべきかと思います。