次回の更新記事:会議出席代行システム LLMでどこまでできるか(公開予定日:2025年02月25日)

LLM科学者と人間の協力で実験の効率化 Googleなど

本記事では、LLMを活用した科学実験の進...
Read More

100万ドル分のソフトウェアエンジニアリング業務に挑む

LLMがめざましく高度化しているにもかか...
Read More

「LLM活用で文書作成」社会でどこまで導入されている

本記事では、LLMが社会のさまざまな分野...
Read More

LLMを擬人化することに対する見解

本記事では、LLMを「人間らしいもの」と...
Read More

LLM専用の「新しい言葉」を導入 Google DeepMind

本記事では、LLMの理解と制御に向けて新...
Read More

AIDBプレミアム会員特典のお知らせ

情報収集と学習を継続されている皆さまに対...
Read More

「すべてのソフトウェアをエージェントとして使う」ビジョンと実践例

ソフトウェアを自然言語で操作する新しい手...
Read More

「職業別にみるLLM活用の現状と今後」Anthropicが大規模調査 

これまで広い視野での「LLMによる仕事の...
Read More

o3-miniクイズ

*前回はDeepSeekについてのクイズ...
Read More

ベンチマーク

天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
企業実務タスクにおけるLLMエージェントの能力を評価する方法
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
PAGE TOP