ベンチマーク | AIDB - Part 2

menu

ホーム
過去の記事一覧

次回の更新記事：Cursorはソフトウェア開発を加速する？導入後の実態…（公開予定日：2025年11月11日）

ベンチマーク

2024/6/5
LLM ベンチマーク有料記事論文

MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場　複数のLLMの評価結果も発表

LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場　複数のLLMの評価結果も発表

2024/2/19
LLM サーベイベンチマーク有料記事論文

大規模言語モデル（LLM）のこれまでとこれから④　-ベンチマーク別の優秀なモデルと将来展望編-

大規模言語モデル（LLM）のこれまでとこれから④　-ベンチマーク別の優秀なモデルと将来展望編-

2023/12/30
LLM ベンチマーク有料記事論文

AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満

AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満

2023/11/27
LLM ベンチマーク政治・社会有料記事論文

日常能力を試すテスト『GAIA』正答率、人間92%に対してGPT-4は15%　一般的なニーズに応えるAI開発の指針に

日常能力を試すテスト『GAIA』正答率、人間92%に対してGPT-4は15%　一般的なニーズに応えるAI開発の指針に

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録

おすすめポスト

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

Copyright © AIDB All rights reserved.