次回の更新記事:Web3向けLLMエージェントOS登場 オープンソースの新…(公開予定日:2025年01月20日)

生成AIシステムのセキュリティ評価 マイクロソフトが100事例から得た教訓

本記事では、マイクロソフトの研究チームに...
Read More

マルチモーダルLLMによる表やグラフの理解力を向上させる方法

表やグラフといった構造化された画像は、私...
Read More

LLMエージェントによって自然言語をゲーム理論モデルに変換する方法

本記事では、人間が思いついたゲーム理論的...
Read More

産業界における生成AIガイドラインを網羅したデータセット登場

本記事では、企業における大規模言語モデル...
Read More

LLMは個人の金銭管理を適切にサポートできるのか?

本記事では、LLMを利用した個人財務サポ...
Read More

ベンチマーク

企業実務タスクにおけるLLMエージェントの能力を評価する方法
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
PAGE TOP