次回の更新記事:LLMを活用した採用フィードバックの効率化(公開予定日:2025年07月14日)

ベンチマーク

LLMを組み込んだシステムを評価する際に意識したい3つの視点
LLMベンチマークは現場の実用性を捉えているか?モデルを選ぶ前に確認したい評価スコアの盲点
手元のドキュメントからLLM評価用のオリジナルベンチマークを作成する
東京大学松尾豊氏らなど国際研究グループ、多言語によるLLM能力の新ベンチマーク『MMLU-ProX』を開発 論文著者本人が解説
LLM評価の盲点とそれを解消する手法
100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成
天井が見え始めたこれまでのLLMベンチマークを超える究極の問題集 DeepSeek-R1もテスト
企業実務タスクにおけるLLMエージェントの能力を評価する方法
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP