次回の更新記事:Web3向けLLMエージェントOS登場 オープンソースの新…(公開予定日:2025年01月20日)

生成AIシステムのセキュリティ評価 マイクロソフトが100事例から得た教訓

本記事では、マイクロソフトの研究チームに...
Read More

マルチモーダルLLMによる表やグラフの理解力を向上させる方法

表やグラフといった構造化された画像は、私...
Read More

LLMエージェントによって自然言語をゲーム理論モデルに変換する方法

本記事では、人間が思いついたゲーム理論的...
Read More

産業界における生成AIガイドラインを網羅したデータセット登場

本記事では、企業における大規模言語モデル...
Read More

LLMは個人の金銭管理を適切にサポートできるのか?

本記事では、LLMを利用した個人財務サポ...
Read More

ベンチマーク

MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』 GPT-4など複数モデルの評価結果
大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
PAGE TOP