Loading [MathJax]/extensions/tex2jax.js
Search for:
menu
menu
AIDBとは
論文記事一覧
アカウント作成
ログイン
ホーム
ベンチマーク
次回の更新記事:
LLMエージェントで社会現象をシミュレーションするに…
(公開予定日:2025年05月02日)
ベンチマーク
2025/4/9
LLM
ベンチマーク
有料記事
論文
手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する
手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する
2025/4/6
LLM
ベンチマーク
無料記事
論文
東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発 論文著者本人が解説
東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発 論文著者本人が解説
2025/3/5
LLM
ベンチマーク
有料記事
論文
LLM評価の盲点とそれを解消する手法
LLM評価の盲点とそれを解消する手法
2025/2/20
LLM
コーディング
ベンチマーク
有料記事
論文
100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成
100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成
2025/2/13
LLM
ベンチマーク
有料記事
論文
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
2024/12/23
LLM
エージェント
ベンチマーク
有料記事
論文
企業実務タスクにおけるLLMエージェントの能力を評価する方法
企業実務タスクにおけるLLMエージェントの能力を評価する方法
2024/12/4
LLM
ベンチマーク
有料記事
論文
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
2024/11/5
LLM
ベンチマーク
有料記事
論文
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
2024/10/21
LLM
ベンチマーク
マルチモーダル
有料記事
論文
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
2024/10/10
LLM
コーディング
ベンチマーク
有料記事
論文
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
2024/9/9
LLM
ベンチマーク
マルチモーダル
有料記事
論文
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
2024/8/1
LLM
エージェント
ベンチマーク
有料記事
論文
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
2024/6/14
LLM
RAG
ベンチマーク
有料記事
論文
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
2024/6/5
LLM
ベンチマーク
有料記事
論文
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
2024/2/27
LLM
ベンチマーク
メンタルヘルス・心理学
有料記事
論文
LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場 複数のLLMの評価結果も発表
LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場 複数のLLMの評価結果も発表
1
2
>
直近1ヶ月で読まれている記事
LLMによるプロンプトの書き直しは本当に実用的 実際の会話データ数百万件をもとに得られた7つの知見
LLMアプリケーション約1,500事例から学ぶプロンプトテンプレート
論文本文のみをもとに実装コードを生成する LLMベースの方法論
会話メモやマニュアルをワークフロー化するLLMマルチエージェントシステムの仕組み
LLMで複数のアイデアを組み合わせ、イノベーションを目指した新しいアイデアを作成する方法
プロフィールを登録すると
仕事のオファーが届きます
プロフィール登録
PAGE TOP
Copyright ©
AIDB
All rights reserved.