o1モデルが人間のように6つの思考パターンを使い分けているとの実験結果

本記事では、AIの性能向上における「推論...
Read More

IBMから日本語対応の商用可能オープンソースLLM「GRANITE 3.0」公開 8Bから

本記事では、IBMが新たに開発した軽量な...
Read More

計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある

本記事では、LLMを活用したエージェント...
Read More

LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上 最大で30%改善

本記事では、LLMの多段階推論能力を向上...
Read More

ベンチマーク

500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』 GPT-4など複数モデルの評価結果
大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-
PAGE TOP