2024-03-30から1日間の記事一覧

llama.cpp量子化：重要度行列(Importance Matrix)計算に使うテキストについて

以前にも取り上げている件ですが、現在のllama.cppでは重要度行列(Importance Matrix)計算を利用することで量子化精度が改善できます。特に4bit以下の低bit量子化を行う場合は、このiMatrix版の量子化が推奨されます（Metal環境などでは推論速度が遅くなる…