TLDR AGIEvalは、大学入学試験など人間の受験者を対象にした問題を使ってLLM性能を評価するベンチマークです。 米国と中国で行われている各種試験問題を利用しているため、主に英語と中国語における性能が評価されます。 GPT-4など上位LLMは、人間の受験者と…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。