2024-04-01から1ヶ月間の記事一覧
少し古いですが「ファインチューニングの終焉(The End of Fine-tuning)」という記事が面白かったので、簡単なメモです。 www.latent.space この記事に登場するFast.aiのJeremy Howardさんは「事前学習→追加学習→RLHF」のように、フェーズごとにデータセッ…
先日「Llama-3-70Bを刈り込み(Pruning)で42Bに縮めたモデルが登場」というRedditの投稿が話題になっていました。 投稿者はおなじみのkindacognizant(kalomaze)さんですが、モデル作成者は別の方のようです。モデルのHuggFaceのRepoはこちら。 huggingfac…
量子化時のモデル劣化を抑制する重要度行列(iMatrix; Importance Matrix)計算の話題です。 最近はHuggingFaceにアップされるGGUFも多くがiMatrix版となっていますが、これらの量子化でよく使われているiMatrix計算用データセットは以下の2種類のようです。…
「Merggoo」というLLMマージ用の新しいライブラリができたそうで、開発者の方がRedditでもPRポストを上げておられます。 もしかするとMegekitに代わるものになるのかもしれません。MoEのルーティングの学習や、LoRA Adapterの混合など。 面白そうなので後で…
前回の続きです。次はChat Vector処理によってどれくらい日本語チャット機能が改善しているのかを具体的にみてみます。 下記の記事で、Chat Vectorを使わなくても単純に2モデルをMoEマージするだけで一定の性能向上が観察できることは確認しています。 sc-ba…
前回Chat Vectorについて簡単に予習したので、とりあえず「LightChatAssistant 2x7B」の作成手順を再現してみたいと思います。 作者さんがモデルカードで丁寧に説明してくださっているので、基本的にそれをなぞるだけです。まずはまったく同じモデルを作って…
前回の記事につづき、「LightChatAssistant 2x7B」に高いチャット性能をもたらした要素について調べています。 基本的には、1)ベースモデルとしての「ChatNTQ JA 7B」の日本語性能の高さ、2) MoEマージで総パラメータ数が増えることによる全般的な性能向上…
前回の記事で、「LightChatAssistant 2x7B」が日本語チャットモデルのベンチマークでもかなり高いスコアを示すことを確認しました(スコア上はCohereの「Command-R 35B」に近い水準です)。 体感的にもベンチマーク的にも優れた日本語チャットモデルで、サイ…
前回の記事で試した日本語チャットモデル「ChatNTQ-JA-7B-v0.1」と、そのMoEモデル「LightChatAssistant 2x7B(改称あり)」について、かなり性能が良さそうな感触が得られたので、追加でテストしてみました。 LLMの日本語チャット性能を測るベンチマークと…
「chatntq_chatvector-MoE-Antler_chatvector-2x7Bchatntq_chatvector-MoE-Antler_chatvector-2x7B」という呪文のような日本語MoEモデルが話題になっていました。 https://t.co/tmcIFgrObQ2x7Bの日本語チャット・ノベル専用高性能モデル。Antler-7Bとchatntq…
今さら知ったのですが、2週間ほど前にllama.cppでモデルをGPUに部分オフロードした場合のプロンプト処理速度が大幅に向上されていました。 github.com 従来のllama.cppではGPUフルオフロードから部分オフロードに移行すると急激にプロンプト処理(PP)が遅く…