Search for:
menu
menu
論文
AIDBとは
アカウント作成
ログイン
ホーム
ベンチマーク
次回の更新記事:
推論時のトークン数を80%以上削減しながら出力精度を…
(公開予定日:2025年03月17日)
ベンチマーク
2025/3/5
LLM
ベンチマーク
有料記事
論文
LLM評価の盲点とそれを解消する手法
LLM評価の盲点とそれを解消する手法
2025/2/13
LLM
ベンチマーク
有料記事
論文
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
2024/12/23
LLM
エージェント
ベンチマーク
有料記事
論文
企業実務タスクにおけるLLMエージェントの能力を評価する方法
企業実務タスクにおけるLLMエージェントの能力を評価する方法
2024/12/4
LLM
ベンチマーク
有料記事
論文
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
2024/11/5
LLM
ベンチマーク
有料記事
論文
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
2024/10/21
LLM
ベンチマーク
マルチモーダル
有料記事
論文
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
2024/10/10
LLM
ベンチマーク
有料記事
論文
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
2024/9/9
LLM
ベンチマーク
マルチモーダル
有料記事
論文
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
2024/8/1
LLM
エージェント
ベンチマーク
有料記事
論文
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
2024/6/14
LLM
RAG
ベンチマーク
有料記事
論文
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
1
2
>
直近1ヶ月で読まれている記事
LLM専用の「新しい言葉」を導入 Google DeepMind
LLMを擬人化することに対する見解
LLMの定理証明力を2倍に向上させる「予想と証明を繰り返させる」手法 限られたデータの中で
LLMはシステムプロンプトをどれほど守れるか
「職業別にみるLLM活用の現状と今後」Anthropicが大規模調査
プロフィールを登録すると
仕事のオファーが届きます
プロフィール登録
PAGE TOP
Copyright ©
AIDB
All rights reserved.