2024-02-14から1日間の記事一覧
llama.cpp の量子化では、safetensorsなどの元モデルを一度FP16フォーマットのggufに変換した後で(convert.py)、このFP16モデルをもとに./quantizeによって8bitや4bitなどのggufに圧縮します。 ただquantize.cppに目を通すと [--allow-requantize](再量子…
llama.cpp の量子化では、safetensorsなどの元モデルを一度FP16フォーマットのggufに変換した後で(convert.py)、このFP16モデルをもとに./quantizeによって8bitや4bitなどのggufに圧縮します。 ただquantize.cppに目を通すと [--allow-requantize](再量子…