Search for:
menu
menu
AIDBとは
論文記事一覧
アカウント作成
ログイン
ホーム
ベンチマーク
次回の更新記事:
LLMを活用した採用フィードバックの効率化
(公開予定日:2025年07月14日)
ベンチマーク
2025/6/24
LLM
ベンチマーク
有料記事
論文
LLMを組み込んだシステムを評価する際に意識したい3つの視点
LLMを組み込んだシステムを評価する際に意識したい3つの視点
2025/5/22
LLM
ベンチマーク
有料記事
論文
LLMベンチマークは現場の実用性を捉えているか?モデルを選ぶ前に確認したい評価スコアの盲点
LLMベンチマークは現場の実用性を捉えているか?モデルを選ぶ前に確認したい評価スコアの盲点
2025/4/9
LLM
ベンチマーク
有料記事
論文
手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する
手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する
2025/4/6
LLM
ベンチマーク
無料記事
論文
東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発 論文著者本人が解説
東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発 論文著者本人が解説
2025/3/5
LLM
ベンチマーク
有料記事
論文
LLM評価の盲点とそれを解消する手法
LLM評価の盲点とそれを解消する手法
2025/2/20
LLM
コーディング
ベンチマーク
有料記事
論文
100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成
100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成
2025/2/13
LLM
ベンチマーク
有料記事
論文
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
2024/12/23
LLM
エージェント
ベンチマーク
有料記事
論文
企業実務タスクにおけるLLMエージェントの能力を評価する方法
企業実務タスクにおけるLLMエージェントの能力を評価する方法
2024/12/4
LLM
ベンチマーク
有料記事
論文
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
2024/11/5
LLM
ベンチマーク
有料記事
論文
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
2024/10/21
LLM
ベンチマーク
マルチモーダル
有料記事
論文
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
2024/10/10
LLM
コーディング
ベンチマーク
有料記事
論文
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
2024/9/9
LLM
ベンチマーク
マルチモーダル
有料記事
論文
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
2024/8/1
LLM
エージェント
ベンチマーク
有料記事
論文
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
2024/6/14
LLM
RAG
ベンチマーク
有料記事
論文
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
1
2
>
直近1ヶ月で読まれている記事
Deep Researchの各種比較、仕組み、現状の課題
LLMのソフトウェア開発タスクに効くプロンプト設計の選び方 手法14種を一斉検証
労働者の声が示す、LLMエージェントによる自動化が本当に求められる現場
LLMにプロンプトのみで仮想的な強化学習を発生させる方法
150本超のLLM資料から紐解く、プロンプトの効果を高める21の性質
プロフィールを登録すると
仕事のオファーが届きます
プロフィール登録
PAGE TOP
Copyright ©
AIDB
All rights reserved.