ベンチマーク | AIDB

Loading [MathJax]/extensions/tex2jax.js

ホーム
ベンチマーク

次回の更新記事：LLMエージェントで社会現象をシミュレーションするに…（公開予定日：2025年05月02日）

ベンチマーク

2025/4/9
LLM ベンチマーク有料記事論文

手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する

手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する

2025/4/6
LLM ベンチマーク無料記事論文

東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発　論文著者本人が解説

東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発　論文著者本人が解説

2025/3/5
LLM ベンチマーク有料記事論文

LLM評価の盲点とそれを解消する手法

LLM評価の盲点とそれを解消する手法

2025/2/20
LLM コーディングベンチマーク有料記事論文

100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証　40%まで達成

100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証　40%まで達成

2025/2/13
LLM ベンチマーク有料記事論文

天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト

天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト

2024/12/23
LLM エージェントベンチマーク有料記事論文

企業実務タスクにおけるLLMエージェントの能力を評価する方法

企業実務タスクにおけるLLMエージェントの能力を評価する方法

2024/12/4
LLM ベンチマーク有料記事論文

実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』

実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』

2024/11/5
LLM ベンチマーク有料記事論文

OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース　実用に役立つ知見も得られる

OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース　実用に役立つ知見も得られる

2024/10/21
LLM ベンチマークマルチモーダル有料記事論文

500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場

500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場

2024/10/10
LLM コーディングベンチマーク有料記事論文

複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場　最新モデルでも60%

複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場　最新モデルでも60%

2024/9/9
LLM ベンチマークマルチモーダル有料記事論文

マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと

マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと

2024/8/1
LLM エージェントベンチマーク有料記事論文

Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発　5領域5能力で測る

Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発　5領域5能力で測る

2024/6/14
LLM RAG ベンチマーク有料記事論文

包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発

包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発

2024/6/5
LLM ベンチマーク有料記事論文

MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場　複数のLLMの評価結果も発表

LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場　複数のLLMの評価結果も発表

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録

おすすめポスト

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

MRI画像は、精神科におけるバイオマーカーになりえるか？…

機械学習による自閉症の早期診断ツールとは【AI×メンタル…

「海外版の検出と防止ためのＡＩシステム」が特許出願！（米…

クボタ社「農作業車のためのコスパに優れた障害物検出AIシ…

「ＡＩで加熱物が沸騰しているか判断するシステム」が特許出…

prev

next

Copyright © AIDB All rights reserved.