2024-02-14から1日間の記事一覧

2024-02-14

llama.cpp：再量子化（requantize）による劣化を調べる

llama.cpp の量子化では、safetensorsなどの元モデルを一度FP16フォーマットのggufに変換した後で（convert.py）、このFP16モデルをもとに./quantizeによって8bitや4bitなどのggufに圧縮します。ただquantize.cppに目を通すと [--allow-requantize]（再量子…

#LLM #llama.cpp #量子化 #Mistral