Claude 3は確かにGPT-4を上回るという評価が出始める

  • 先日、Anthropic が発表したクローズドの大規模言語モデル Claude 3 (Opus) が、本当にGPT-4 超えの性能かも、と話題になっています。
  • Chatbot Arena Leaderboard の直近集計では、冒頭の表のとおり GPT-4  Turbo の後塵を拝しているものの、柔軟で積極的な対話スタイルに仕上がっていて、LLMコミュニティでは総じてGPT-4よりも高く評価されているようです。
  • コーディングや日本語性能など GPT-4 が圧倒的に強かった領域でも高い性能が確認されていて(一時的なものにせよ)OpenAI 一強の状態にいったん終止符が打たれた感があります。

 ノルウェー・メンサのIQテスト

  • 日本語ネットメディアでも複数記事化されていたのは、人間向けIQテストでClaude 3 Opus が GPT-4 を上回ったという話題です(個人ユーザーの検証)。

gigazine.net

h2oGPT RAG Benchmarks

  • H2O.aiの人が、独自のLLMベンチマーク結果をRedditに投稿していたので、その結果も転載します。
  • RAGで参照した体裁のテキストをモデルに与え、それを正確に読めているかを検証するベンチマークのようです(RAGそれ自体の性能ではなく、RAGで引っ張ったテキストの理解を試す)。

github.com

  • 以下の表のとおり、Anthropicの最新のモデル「Claude 3 Opus / Sonnet」が、GPT-4を超える結果となったとのこと。

  • どうしてもフラッグシップの Claude 3 Opus に注目が集まりますが、No.2モデルの Sonnet もコストのわりに性能が高く、実用的には使いやすいかもしれません。