llama.cpp量子化：重要度行列(Importance Matrix)計算に使うテキストについて

以前にも取り上げている件ですが、現在のllama.cppでは重要度行列(Importance Matrix)計算を利用することで量子化精度が改善できます。特に4bit以下の低bit量子化を行う場合は、このiMatrix版の量子化が推奨されます（Metal環境などでは推論速度が遅くなる…

#LLM #llama.cpp #重要度行列 #量子化 #GGUF

2024-03-28

DPO（直接選好最適化）とは何か、メモ

最近、自作の指示応答データセットを使った微調整によってLLMにパーソナライズされた知識を追加することを試みているのですが、その際にモデルに植え付けられた過剰なアラインメントが知識追加の障壁になる場合があります。例えばモデルに対し「USER: 好き…

#LLM #ファインチューン #DPO

2024-03-27

Starling-7B: RLAIF で LLM の有用性と無害性を向上させる

お馴染みのLMSYS Chatbot Arena ELOランキングが更新されていました。 [Arena Update]70K+ new Arena votes️ are in!Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are u…

#LLM #Chatbot Arena #Starling-7B #PPO

2024-03-27

消費者向けAIチャットサービスの収益化問題

ChatGPTのような消費者向けAIチャットサービスの収益化問題に関する記事がRedditで共有されていました。 www.businessinsider.com 記事によると最近「Inflection AI」というAIスタートアップから主要メンバーがMicrosoftに引き抜かれ、会社が瓦解しかかって…

#LLM #Inflection #Pi

2024-03-25

微調整データセットには事前学習データも混ぜたほうがいい？

「ファインチューン用のデータには事前学習用データもミックスすべき」というポストがredditに上がっていました。投稿者はkobold.cppなどの開発にも関わっているkindacognizant (kalomaze)さんです。投稿の要旨言語モデルのファインチューンは基本的に「加…

#LLM #ファインチューン

2024-03-24

Mistral AI のCEO、Arthur Mensch の対談メモ

www.youtube.com Mistral AI と Figma のCEOの対談に関する投稿がRedditに上がっていた（文字起こしのリンクが貼られている）。目を通して気になった点を適当にメモしておく。 Llama-7Bのような小型のモデルはコミュニティの需要が大きい一方で、改善の余地…

#LLM #Mistral

2024-03-22

LoRAのランク（r）は高いほうがいいのか？

LoRAファインチューンでは様々なハイパーパラメータがあります。モデルとデータセットに合ったパラメータを選ぶことで、学習速度・精度が変わります。今日は主要なハイパーパラメータの一つであるLoRAランク（r）が気になったので、簡単な備忘録を書いてお…

#LLM #LoRA #ファインチューン

2024-03-21

【LLM論文を読む】DoRA：Weight-Decomposed Low-Rank Adaptation（重み分解LoRA）

ここ数日「Stable Knowledge Editing」を参考にしながら、LoRAファインチューンによるLLMへの知識の追加を試しています。 LoRAのハイパーパラメータ調整のコツを調べるなかで、「DoRA（重み分解LoRA）」という別のLoRA派生手法の存在を知りました。HuggingFa…

#LLM #LoRA #DoRA #ファインチューン #Llama

2024-03-18

【LLM論文を読む】大規模言語モデルの安定的知識編集（Stable Knowledge Editing）

2024年2月に投稿された中国科学院大学の研究者によるarXiv論文です。ファインチューン・ベースの知識編集手法である「Stable Knowledge Editing」を提案したうえで、既存の知識編集手法と比べた場合の有用性を主張しています。 arxiv.org 概要大規模言語モ…

#LLM #知識編集 #ファインチューン

2024-03-18

llama.cppのGGUFフォーマットに関する資料メモ

1. GGUF（公式doc） github.com 2. プラットフォーム別GGUF対応表 github.com 3. どのGGUFを選べばいいですか？（再掲） GGUF quantizations overview · GitHub

#llama.cpp #メモ #GGUF #LLM

2024-03-17

llama.cpp で多言語LLMの Cohere Command-R 35B を試す

github.com カナダのAIスタートアップCohereが先日公開した多言語LLMのCommand-Rが、最新のllama.cppでサポートされました。開発したCohereはLLMスタートアップとしてはわりと有名どころですが、OpenAI/Anthropic/Mistralの先頭集団には後れを取っている感…

#llama.cpp #LLM #Cohere #Command-R

2024-03-16

【LLM論文を読む】大規模言語モデルの知識編集（Knowledge Editing）に関するサーベイ

LLMの知識編集（Knowledge Editing）のあらましをざっくり把握するため、適当なサーベイ論文に目を通してみたいと思います。 arXivに上がっている2023年10月のバージニア大学の研究者による論文『大規模言語モデルの知識編集に関するサーベイ（Knowledge Edi…

#LLM #知識編集

2024-03-07

Claude 3は確かにGPT-4を上回るという評価が出始める

先日、Anthropic が発表したクローズドの大規模言語モデル Claude 3 (Opus) が、本当にGPT-4 超えの性能かも、と話題になっています。 Chatbot Arena Leaderboard の直近集計では、冒頭の表のとおり GPT-4 Turbo の後塵を拝しているものの、柔軟で積極的な対…

#LLM #Claude #RAG

2024-03-05

【LLM論文を読む】LAB: チャットボットのための大規模アライメント（IBM Merlinite 7b）

IBMが「ibm/merlinite-7b」というMistral 7Bベースのファインチューンモデルを公開し、同時にそのファインチューン手法に関するarXiv論文を投稿しています（「LAB: チャットボットのための大規模アライメント」）。 arxiv.org 概要本研究では、大規模言語モ…

#LLM #ファインチューン #Mistral #llama2

ローカルLLM自由帳

2024-03-01から1ヶ月間の記事一覧