AIDB
menu
AIDBとは
アカウント作成
ログイン
ホーム
ベンチマーク
次回の更新記事:
会議出席代行システム LLMでどこまでできるか
(公開予定日:2025年02月25日)
コンテンツ検索
Search for:
LLM
エージェント
論文
LLM科学者と人間の協力で実験の効率化 Googleなど
By AIDB Research
/ 2025/02/20
本記事では、LLMを活用した科学実験の進...
Read More
LLM
論文
100万ドル分のソフトウェアエンジニアリング業務に挑む
By AIDB Research
/ 2025/02/20
LLMがめざましく高度化しているにもかか...
Read More
LLM
政治・社会
論文
「LLM活用で文書作成」社会でどこまで導入されている
By AIDB Research
/ 2025/02/19
本記事では、LLMが社会のさまざまな分野...
Read More
LLM
論文
LLMを擬人化することに対する見解
By AIDB Research
/ 2025/02/18
本記事では、LLMを「人間らしいもの」と...
Read More
LLM
論文
LLM専用の「新しい言葉」を導入 Google DeepMind
By AIDB Research
/ 2025/02/17
本記事では、LLMの理解と制御に向けて新...
Read More
お知らせ
AIDBプレミアム会員特典のお知らせ
By AIDB Research
/ 2025/02/15
情報収集と学習を継続されている皆さまに対...
Read More
LLM
エージェント
論文
「すべてのソフトウェアをエージェントとして使う」ビジョンと実践例
By AIDB Research
/ 2025/02/14
ソフトウェアを自然言語で操作する新しい手...
Read More
LLM
ベンチマーク
論文
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
By AIDB Research
/ 2025/02/13
LLMの性能は日々進化を続けています。そ...
Read More
LLM
政治・社会
論文
「職業別にみるLLM活用の現状と今後」Anthropicが大規模調査
By AIDB Research
/ 2025/02/12
これまで広い視野での「LLMによる仕事の...
Read More
クイズ
o3-miniクイズ
By AIDB Research
/ 2025/02/11
*前回はDeepSeekについてのクイズ...
Read More
ベンチマーク
2025/2/13
LLM
ベンチマーク
論文
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
2024/12/23
LLM
エージェント
ベンチマーク
論文
企業実務タスクにおけるLLMエージェントの能力を評価する方法
企業実務タスクにおけるLLMエージェントの能力を評価する方法
2024/12/4
LLM
ベンチマーク
論文
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
2024/11/5
LLM
ベンチマーク
論文
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
2024/10/21
LLM
ベンチマーク
マルチモーダル
論文
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
2024/10/10
LLM
ベンチマーク
論文
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
2024/9/9
LLM
ベンチマーク
マルチモーダル
論文
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
2024/8/1
LLM
エージェント
ベンチマーク
論文
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
2024/6/14
LLM
RAG
ベンチマーク
論文
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
2024/6/5
LLM
ベンチマーク
論文
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
1
2
>
コンテンツ検索
検索:
60911
直近1ヶ月で読まれている記事
LLM専用の「新しい言葉」を導入 Google DeepMind
GPT-4とヒューマノイドロボットを連携すると何が起こるか。東京大学と株式会社オルタナティヴ・マシンの研究者らが実験
DeepSeek R1が実現した教師なし強化学習による推論性能の向上
LLMの定理証明力を2倍に向上させる「予想と証明を繰り返させる」手法 限られたデータの中で
「職業別にみるLLM活用の現状と今後」Anthropicが大規模調査
PAGE TOP
Copyright ©
AIDB
All rights reserved.