Claude 3は確かにGPT-4を上回るという評価が出始める
- 先日、Anthropic が発表したクローズドの大規模言語モデル Claude 3 (Opus) が、本当にGPT-4 超えの性能かも、と話題になっています。
- Chatbot Arena Leaderboard の直近集計では、冒頭の表のとおり GPT-4 Turbo の後塵を拝しているものの、柔軟で積極的な対話スタイルに仕上がっていて、LLMコミュニティでは総じてGPT-4よりも高く評価されているようです。
- コーディングや日本語性能など GPT-4 が圧倒的に強かった領域でも高い性能が確認されていて(一時的なものにせよ)OpenAI 一強の状態にいったん終止符が打たれた感があります。
ノルウェー・メンサのIQテスト
- 日本語ネットメディアでも複数記事化されていたのは、人間向けIQテストでClaude 3 Opus が GPT-4 を上回ったという話題です(個人ユーザーの検証)。
h2oGPT RAG Benchmarks
- H2O.aiの人が、独自のLLMベンチマーク結果をRedditに投稿していたので、その結果も転載します。
- RAGで参照した体裁のテキストをモデルに与え、それを正確に読めているかを検証するベンチマークのようです(RAGそれ自体の性能ではなく、RAGで引っ張ったテキストの理解を試す)。
- 以下の表のとおり、Anthropicの最新のモデル「Claude 3 Opus / Sonnet」が、GPT-4を超える結果となったとのこと。
- どうしてもフラッグシップの Claude 3 Opus に注目が集まりますが、No.2モデルの Sonnet もコストのわりに性能が高く、実用的には使いやすいかもしれません。