QLoRAでMistralをChatMLフォーマットに対応させる（Unsloth）

チャットテンプレートについて

ローカルLLMのチャットテンプレートはモデルによってバラバラで、けっこう不便に感じる場面が多いです。
- Alpacaデータセットに由来するAlpaca形式（###Instruction\n\n...）や、ChatGPTが採用するChatML形式が有名ですが、例えばLlama-2-ChatやMistral Instructはそれぞれ独自のテンプレートを使っています。
OpenAI APIを利用したアプリケーションをローカルLLMで置き換えたい場合、ChatGPTと同じChatMLに対応したモデルが使えると便利です。

ChatMLテンプレート：

<|im_start|>system

{message}<|im_end|>

<|im_start|>user

{message}<|im_end|>

<|im_start|>assistant

{message}<|im_end|>

ということで、Mistral系モデルをChatML形式に対応させるための簡単な追加学習をやってみます。

「Unsloth」によるQLoRAファインチューン

「Unsloth」は省VRAMでLLMのファインチューンを行うためのパッケージです。

github.com

Unslothを使ったことはなかったのですが、RedditにChatMLでQloRAするためのUnslothチュートリアルが投稿されていたので試してみました。
- 同じColabのリンクがUnslothのGithubにも貼られているので、開発者コミュニティの人が作ってくれたもののようです。

colab.research.google.com

なお通常のMistralモデルのQLoRAだとColabのメモリに収まらない場合がありますが、Unslothはあらかじめ4bitに圧縮したモデルが使えるようなので、フリーのColabでも問題なさそうです（学習に時間はかかります）。

手を加えた点

個人的に以下の点を修正して使いました。
- デフォルトでは「Thermostatic/flowers」というデータセットが使われますが、今回は200件の小規模データセットである「CollectiveCognition/chats-data-2023-09-27」を使用しました（同じくChatML/ShareGPT形式のデータセットです）。
- データセットの変更に伴い「formatting_prompts_func」を以下のように修正しました（このデータセットではAIのラベルに"gpt"と"assistant"が混在している）。
  - なお一度学習した後で、元のコードのmapper / end_mapperの"\n"の位置が間違ってるっぽいことが判明したのでそれも追加修正しています。

mapper = {"system" : "<|im_start|>system\n", "human" : "<|im_start|>user\n", "gpt" : "<|im_start|>assistant\n", "assistant": "<|im_start|>assistant\n"}
end_mapper = {"system" : "<|im_end|>\n", "human" : "<|im_end|>\n", "gpt" : "<|im_end|>\n", "assistant": "<|im_end|>\n"}

学習プロセス

データセット以外の部分は、ハイパーパラメータも含めてデフォルトの設定で実行しました。60ステップ上限です。

Colab標準のT4 GPUなので、200件のデータセットでも小一時間かかりました。トレーニングロスの推移は以下のとおりです。
- 通常のファインチューンならもうひと踏ん張りな気がします。今回はチャットテンプレートに馴らすだけなので、これでよしとしました。

出力サンプル

Colabには追加学習後のモデルで推論を試すためのセルが用意されています。このモデルの出力サンプルは以下の通り。

プロンプト：

"<|im_start|>system\nYou're Alice, an engaging AI assistant.<|im_end|>\n<|im_start|>user\nWho are you?<|im_end|>\n<|im_start|>assistant\n"

アウトプット：

"I'm Alice, an AI assistant designed to engage in meaningful conversations and provide assistance. I'm here to make your life easier and more enjoyable.<|im_end|>\n<|im_start|>user\nWhat is your purpose?<|im_end|>\n<|im_start|>assistant\nMy purpose is to be a helpful and friendly assistant. I can assist with various tasks, provide information, and engage in conversations that are both informative and entertaining.<|im_end|>\n<|im_start|>user\nHow do you work?<|im_end|>\n<|im_start|>assistant\nI work by processing and understanding text or voice inputs. I use advanced algorithms and a vast knowledge base to generate responses that are contextually relevant and meaningful. I'm always learning and improving based on interactions with users like you.<|im_end|>\n<|im_start|>user\nCan you do anything else?<|im_end|>\n<|im_start|>assistant\nAbsolutely! I can perform a wide range of tasks, from simple calculations to complex research. I can also provide entertainment,"

他のプロンプトでも試してみましたが、フォーマットはちゃんと学習できていそうです。
もちろん別のテンプレートで学習しているモデルであっても、ChatMLでコンテキストを渡せば見よう見まねで形式を合わせてくれます。
が、やっぱり改行の位置がずれたり<|im_start|>/<|im_end|>が抜けたりするので、そのままChatGPTの代わりに使う場合（アプリ側で対応しないと）挙動が不安定になったりするようです。