ローカルLLM自由帳

Claude 3は確かにGPT-4を上回るという評価が出始める

先日、Anthropic が発表したクローズドの大規模言語モデル Claude 3 (Opus) が、本当にGPT-4 超えの性能かも、と話題になっています。
Chatbot Arena Leaderboard の直近集計では、冒頭の表のとおり GPT-4 Turbo の後塵を拝しているものの、柔軟で積極的な対話スタイルに仕上がっていて、LLMコミュニティでは総じてGPT-4よりも高く評価されているようです。
コーディングや日本語性能など GPT-4 が圧倒的に強かった領域でも高い性能が確認されていて（一時的なものにせよ）OpenAI 一強の状態にいったん終止符が打たれた感があります。

ノルウェー・メンサのIQテスト

日本語ネットメディアでも複数記事化されていたのは、人間向けIQテストでClaude 3 Opus が GPT-4 を上回ったという話題です（個人ユーザーの検証）。

h2oGPT RAG Benchmarks

H2O.aiの人が、独自のLLMベンチマーク結果をRedditに投稿していたので、その結果も転載します。
RAGで参照した体裁のテキストをモデルに与え、それを正確に読めているかを検証するベンチマークのようです（RAGそれ自体の性能ではなく、RAGで引っ張ったテキストの理解を試す）。

以下の表のとおり、Anthropicの最新のモデル「Claude 3 Opus / Sonnet」が、GPT-4を超える結果となったとのこと。

どうしてもフラッグシップの Claude 3 Opus に注目が集まりますが、No.2モデルの Sonnet もコストのわりに性能が高く、実用的には使いやすいかもしれません。