Loading [MathJax]/extensions/tex2jax.js
次回の更新記事:LLMエージェントで社会現象をシミュレーションするに…(公開予定日:2025年05月02日)

ベンチマーク

手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する
東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発 論文著者本人が解説
LLM評価の盲点とそれを解消する手法
100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
企業実務タスクにおけるLLMエージェントの能力を評価する方法
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場 複数のLLMの評価結果も発表

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP