2024-04-02から1日間の記事一覧

llama.cpp: CPU+GPUのプロンプト処理が高速化される（#6083）

今さら知ったのですが、2週間ほど前にllama.cppでモデルをGPUに部分オフロードした場合のプロンプト処理速度が大幅に向上されていました。 github.com 従来のllama.cppではGPUフルオフロードから部分オフロードに移行すると急激にプロンプト処理（PP）が遅く…