各チャットテンプレートの長所と短所

Redditに「ファインチューンにおける各チャットフォーマットの長所/短所」という投稿が上がっていました。 長文ポストですが、一部を訳出すると: 古き良き「Alpacaフォーマット(###Instruction\n...)」は、1)ベースモデルを含めどんなモデルでも指示追従…

LLMは単語予測機に過ぎない。けれど

RedditのローカルLLM板に「Llama-2とチャットしてたら、驚くような質問をされた」という投稿が上がっていました。 https://www.reddit.com/r/LocalLLaMA/comments/1amfiec/took_me_by_surprise/ 曰く、投稿者がuncensoredの(非検閲データセットで学習した)…

知識記憶のためのファインチューン:文書IDとの紐づけ学習

ファインチューンでLLMに知識を教え込むための試行錯誤を解説した記事がありました。 helixml.substack.com 投稿者は、最初Llmaindexのドキュメント("知識記憶させるためのファインチューン")で紹介されている手順で試したものの、うまくいかなかったよう…

QLoRAでMistralをChatMLフォーマットに対応させる(Unsloth)

チャットテンプレートについて ローカルLLMのチャットテンプレートはモデルによってバラバラで、けっこう不便に感じる場面が多いです。 Alpacaデータセットに由来するAlpaca形式(###Instruction\n\n...)や、ChatGPTが採用するChatML形式が有名ですが、例え…

llama.cpp:量子化による出力劣化の調査事例

Redditに「LLMの量子化の影響を調べてみた」という投稿が上がっていました。 huggingface.co LLMの量子化では、最小で2bit近く(ファイルサイズ1/8程度)まで圧縮できますが、圧縮率を高めると出力の質が低下することが知られています。 ただ量子化による変…

OpenAI代替API機能の比較:llama.cpp / koboldcpp / Text generation web UI

OpenAI APIを使った各種アプリケーションをローカルLLMに置き換えるためのOpenAI代替API機能についてのメモです。 いずれも、パッケージ標準のAPI機能に追加してOpenAIスタイルのAPIに対応させたものです。ChatGPT互換にこだわらない場合はそれぞれの標準API…

XTTSv2 による Text-to-Speech を試す

text-generation-webui や SillyTavern のようなチャットUIでは、TTS(Text-to-Speech)による音声チャット用の拡張機能も利用することができます。 ただ、いろいろと触っているうちに物足りなくなり、Pythonで簡単な音声チャットアプリのDIYを始めました。素…

KoboldCppのContextShift機能

最近、LLMのチャットUIとして「SillyTavern」を試しています。非常に多機能ですが、多機能すぎて全貌が把握できていません。 github.com SillyTavernの特徴は、フロントエンド(ユーザーインターフェース)のみの構成で、バックエンド(LLMローダー機能)を…

AGIEval:言語モデル評価のための人間中心ベンチマーク

TLDR AGIEvalは、大学入学試験など人間の受験者を対象にした問題を使ってLLM性能を評価するベンチマークです。 米国と中国で行われている各種試験問題を利用しているため、主に英語と中国語における性能が評価されます。 GPT-4など上位LLMは、人間の受験者と…

【LLM論文を読む】RAG vs ファインチューニング

2024/1/16にMicrosoftから「RAG vs ファインチューニング:パイプライン、トレードオフ、農業におけるケーススタディ」というarxiv論文が出てました。 特定領域に固有の知識(この論文では農業関連データ)をLLMアプリケーションの回答に取り入れる手法とし…

メモ:"Mixuture Of Experts"という誤解しやすい表現

RedditのローカルLLM板に以下のようなポストが上がっていました。 "Mixuture Of Experts"という表現は誤解を招きやすい 私も最初は「Mixtral 8x7B」のMixture of Expertsというのは様々な分野で特化学習をした8つのMistralモデルを結合したものだと思ってい…

Yi-34B-Chatを日本語で試す

中国系の多言語LLM、Yi-34B-Chat Yiシリーズは中国のAIベンチャー「01-ai」が開発した言語モデル。まだ試してなかったのを思い出して簡単に動かしてみました。 一般向けGPUで実用的に動かせるモデルの中では、Mixtral-8x7Bと並んで性能が高いようです。 Chat…

【LLM論文を読む】小さな物語 - 小規模モデルで流暢なテキストを生成する

">「llama2.c」を試したときに「TinyStories(小さな物語)」というデータセットの存在に興味を持ったので少し調べてみました。 "> note.com "> ">タイトルは「TinyStories: How Small Can Language Models Be and Still Speak Coherent English?」。著者はR…