
AIエージェントを業務に入れようというとき、選定基準として最初に見られるのはベンチマーク総合スコアの順位です。しかしこの基準には穴があります。これまで使われてきた評価指標が測れたのは、Webブラウジング、パソコン操作、コードリポジトリなど、外部に公開された環境がある領域に偏っていたからです。
医療、金融、製造、行政、物流。本当にAIエージェントが必要とされる領域の多くは、外から触れる環境がなく、本物で試すには失敗の代償が大きすぎる場所にあります。これらの「測れない多数派」をどう測るのか。
本記事では、こうした「測れない多数派」を含めた専門職タスクでの横断評価結果を取り上げます。業界ごとに最も得意なモデルはどれか、実環境に近づけたとき性能はどこで崩れるのか。導入を判断する側が押さえておくべき論点を順に見ていきます。