Search for:
menu
menu
AIDBとは
論文記事一覧
アカウント作成
ログイン
ホーム
過去の記事一覧
次回の更新記事:
Cursorはソフトウェア開発を加速する?導入後の実態…
(公開予定日:2025年11月11日)
ベンチマーク
2024/6/5
LLM
ベンチマーク
有料記事
論文
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
2024/2/27
LLM
ベンチマーク
メンタルヘルス・心理学
有料記事
論文
LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場 複数のLLMの評価結果も発表
LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場 複数のLLMの評価結果も発表
2024/2/19
LLM
サーベイ
ベンチマーク
有料記事
論文
大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-
大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-
2023/12/30
LLM
ベンチマーク
有料記事
論文
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
2023/11/27
LLM
ベンチマーク
政治・社会
有料記事
論文
日常能力を試すテスト『GAIA』正答率、人間92%に対してGPT-4は15% 一般的なニーズに応えるAI開発の指針に
日常能力を試すテスト『GAIA』正答率、人間92%に対してGPT-4は15% 一般的なニーズに応えるAI開発の指針に
<
1
2
直近1ヶ月で読まれている記事
プロフィールを登録すると
仕事のオファーが届きます
プロフィール登録
PAGE TOP
Copyright ©
AIDB
All rights reserved.