Mistral AI のCEO、Arthur Mensch の対談メモ

www.youtube.com

Mistral AI と Figma のCEOの対談に関する投稿がRedditに上がっていた（文字起こしのリンクが貼られている）。目を通して気になった点を適当にメモしておく。

Llama-7Bのような小型のモデルはコミュニティの需要が大きい一方で、改善の余地が多くあると気づいたので、まず小型モデルに狙いを定めた。
Mistral 7Bの開発・リリースには４か月かかった。500台のGPUを使い、5人のチームでほとんど休暇を取らずに作業した。個人的にはAI開発チームは4-5人程度の規模がベストだと考えている。
当面は新しいオープンソースモデル（汎用モデルと、金融など特定領域に特化したモデル）のリリースを控えているほか、Mistralのウェブプラットフォームの機能拡充を進めている。
Microsoftと提携しAzureでMistralのモデルが採用されたことで、1000社ほどの顧客を獲得できた。
資金調達により計算資源が増えたことでより大型のモデルを開発する余力ができた。ただし、当社はあくまで推論の効率性を重視していて、オープンソースの小型モデルも引き続きリリースしていく。
2年ほど前まではRLHF（人間のフィードバックによる強化学習）が非常に重要だった。今では言語モデル自身を使って強化学習できるので、確かにその重要性は以前ほどではない。一方で、LLM開発が隆盛を極めていることでRLHFを低コストで行えるような環境も整備されつつある。
今後3年以内には、多くのホワイトカラー業務でAIが人間を代替できる状況が生まれているのではないか。AIエージェントをデプロイし、評価し、ロバストで信頼性の高いものにする方法を見出すことが重要。
いわゆるnext token predictionだけでは、多彩な科学領域で実用的なツールとなることは難しい。
昨今のGPU不足と計算コスト高騰は、ハードウェア分野での競争が進むことで次第に緩和されるだろう。NVIDIAのチップにはメモリ帯域幅の問題があり、Transformersに最適化したカスタムなチップが登場すればコストは大幅に削減される。
EUなどのAI規制に関しては、喧伝されている実存的リスクは定義があいまいで、科学的根拠にも欠けている。いくつもの異なる議論がごちゃまぜにされている。
音声AIなどによるディープフェイクはもちろん大きな懸念があるが、当社はひとまずテキスト生成にフォーカスしており、この領域では現実的なリスクを制御できると考えている。
多くのLLMは英語中心だが、英語は言語のひとつに過ぎず、我々は欧州の諸言語に注力し、そこに大きなマーケットを見出した。他にもアジアではアジアの言語に優れたモデルに対するマーケットがあるのだろうが、そこは我々の力の及ぶところではない。
今後も、効率的なオープンソースモデルと強力なクローズドAPIを並行して提供する戦略を維持する予定。
当社のAI開発チームでは、インフラスタックからパイプラインの作成、抽出、変換、ロード、数学的考察まで、あらゆることができる人材を探してきたが、そのようなフルスタックのAIエンジニアは行動に偏りがある傾向があった。
私たちがフォーカスしたのは、退屈な裏方仕事も嫌がらずにこなしてくれるような利己的でない人材を探すことで、それが実際にチームに生産的な結果をもたらした。
Mistral Large に勝る 7B モデルが実現できるかどうかは少し難しい。方法はあるかもしれない。特定のタスクに絞れば非常に強力な7Bモデルを作れるだろうが、例えばこのサイズで多言語モデルを作るのはおそらく良いアイディアではない。