2024-04-01から1ヶ月間の記事一覧

ファインチューニングの終焉:全ては継続的な事前学習

少し古いですが「ファインチューニングの終焉(The End of Fine-tuning)」という記事が面白かったので、簡単なメモです。 www.latent.space この記事に登場するFast.aiのJeremy Howardさんは「事前学習→追加学習→RLHF」のように、フェーズごとにデータセッ…

【LLM論文を読む&試す】LLMの刈り込み(Pruning):深いレイヤーの不合理な非効率性

先日「Llama-3-70Bを刈り込み(Pruning)で42Bに縮めたモデルが登場」というRedditの投稿が話題になっていました。 投稿者はおなじみのkindacognizant(kalomaze)さんですが、モデル作成者は別の方のようです。モデルのHuggFaceのRepoはこちら。 huggingfac…

llama.cpp:iMatrix量子化は日本語性能にどう影響するか?

量子化時のモデル劣化を抑制する重要度行列(iMatrix; Importance Matrix)計算の話題です。 最近はHuggingFaceにアップされるGGUFも多くがiMatrix版となっていますが、これらの量子化でよく使われているiMatrix計算用データセットは以下の2種類のようです。…

Mergoo: LLMの効率的なマージと微調整のためのライブラリ (MoE, Mixture of Adapters)

「Merggoo」というLLMマージ用の新しいライブラリができたそうで、開発者の方がRedditでもPRポストを上げておられます。 もしかするとMegekitに代わるものになるのかもしれません。MoEのルーティングの学習や、LoRA Adapterの混合など。 面白そうなので後で…

Chat Vector の効果 vs. MoEマージ の効果

前回の続きです。次はChat Vector処理によってどれくらい日本語チャット機能が改善しているのかを具体的にみてみます。 下記の記事で、Chat Vectorを使わなくても単純に2モデルをMoEマージするだけで一定の性能向上が観察できることは確認しています。 sc-ba…

LightChatAssistant 2x7B を再現する

前回Chat Vectorについて簡単に予習したので、とりあえず「LightChatAssistant 2x7B」の作成手順を再現してみたいと思います。 作者さんがモデルカードで丁寧に説明してくださっているので、基本的にそれをなぞるだけです。まずはまったく同じモデルを作って…

【LLM論文を読む】Chat Vector:LLMに新たな言語での指示追従とアラインメントを付与するシンプルなアプローチ

前回の記事につづき、「LightChatAssistant 2x7B」に高いチャット性能をもたらした要素について調べています。 基本的には、1)ベースモデルとしての「ChatNTQ JA 7B」の日本語性能の高さ、2) MoEマージで総パラメータ数が増えることによる全般的な性能向上…

MergeKitによるMoEマージだけで日本語性能は上がるか?

前回の記事で、「LightChatAssistant 2x7B」が日本語チャットモデルのベンチマークでもかなり高いスコアを示すことを確認しました(スコア上はCohereの「Command-R 35B」に近い水準です)。 体感的にもベンチマーク的にも優れた日本語チャットモデルで、サイ…

ChatNTQ 7B と LightChatAssistant 2x7B の日本語性能を測定する

前回の記事で試した日本語チャットモデル「ChatNTQ-JA-7B-v0.1」と、そのMoEモデル「LightChatAssistant 2x7B(改称あり)」について、かなり性能が良さそうな感触が得られたので、追加でテストしてみました。 LLMの日本語チャット性能を測るベンチマークと…

Mistral 7Bベースの日本語チャットモデル ChatNTQ-JA-7B を試す

「chatntq_chatvector-MoE-Antler_chatvector-2x7Bchatntq_chatvector-MoE-Antler_chatvector-2x7B」という呪文のような日本語MoEモデルが話題になっていました。 https://t.co/tmcIFgrObQ2x7Bの日本語チャット・ノベル専用高性能モデル。Antler-7Bとchatntq…

llama.cpp: CPU+GPUのプロンプト処理が高速化される(#6083)

今さら知ったのですが、2週間ほど前にllama.cppでモデルをGPUに部分オフロードした場合のプロンプト処理速度が大幅に向上されていました。 github.com 従来のllama.cppではGPUフルオフロードから部分オフロードに移行すると急激にプロンプト処理(PP)が遅く…