Loading [MathJax]/extensions/tex2jax.js
Search for:
menu
menu
AIDBとは
論文記事一覧
アカウント作成
ログイン
ホーム
ベンチマーク
次回の更新記事:
LLMで複数のアイデアを組み合わせ、新しい有望な研究…
(公開予定日:2025年04月02日)
ベンチマーク
2025/3/5
LLM
ベンチマーク
有料記事
論文
LLM評価の盲点とそれを解消する手法
LLM評価の盲点とそれを解消する手法
2025/2/13
LLM
ベンチマーク
有料記事
論文
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
2024/12/23
LLM
エージェント
ベンチマーク
有料記事
論文
企業実務タスクにおけるLLMエージェントの能力を評価する方法
企業実務タスクにおけるLLMエージェントの能力を評価する方法
2024/12/4
LLM
ベンチマーク
有料記事
論文
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
2024/11/5
LLM
ベンチマーク
有料記事
論文
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
2024/10/21
LLM
ベンチマーク
マルチモーダル
有料記事
論文
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
2024/10/10
LLM
ベンチマーク
有料記事
論文
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
2024/9/9
LLM
ベンチマーク
マルチモーダル
有料記事
論文
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
2024/8/1
LLM
エージェント
ベンチマーク
有料記事
論文
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
2024/6/14
LLM
RAG
ベンチマーク
有料記事
論文
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
2024/6/5
LLM
ベンチマーク
有料記事
論文
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
2024/2/27
LLM
ベンチマーク
メンタルヘルス・心理学
有料記事
論文
LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』 GPT-4など複数モデルの評価結果
LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』 GPT-4など複数モデルの評価結果
2024/2/19
LLM
サーベイ
ベンチマーク
有料記事
論文
大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-
大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-
2023/12/30
LLM
ベンチマーク
有料記事
論文
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
2023/11/27
LLM
ベンチマーク
政治・社会
有料記事
論文
日常能力を試すテスト『GAIA』正答率、人間92%に対してGPT-4は15% 一般的なニーズに応えるAI開発の指針に
日常能力を試すテスト『GAIA』正答率、人間92%に対してGPT-4は15% 一般的なニーズに応えるAI開発の指針に
直近1ヶ月で読まれている記事
プロンプトがなぜLLMにとって重要なのか理論的な分析と導き出される4つのTips
LLMはシステムプロンプトをどれほど守れるか
世界的にみた「独自LLM」の開発状況や戦略、規制動向、投資環境
自然言語タスクをコードタスクに変換してLLMに高度な推論を実行させる
ソフトウェア評価にLLMを活用する「LLM-as-a-Judge」における現状
プロフィールを登録すると
仕事のオファーが届きます
プロフィール登録
PAGE TOP
Copyright ©
AIDB
All rights reserved.