以前にも取り上げている件ですが、現在のllama.cppでは重要度行列(Importance Matrix)計算を利用することで量子化精度が改善できます。 特に4bit以下の低bit量子化を行う場合は、このiMatrix版の量子化が推奨されます(Metal環境などでは推論速度が遅くなる…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。