AIエージェントに仕事を任せたい。そう考えたとき、まず頭に浮かぶのはコードを書かせること、Webを操作させることではないでしょうか。実際、ここ数年で登場したエージェント向けベンチマークの大半は、ソフトウェアエンジニアリングやWeb操作に集中しています。開発者にとっては自然な流れですが、ひとつ素朴な疑問が残ります。それは本当に「世の中の仕事」を映しているのか、という点です。
本記事では、エージェント開発の現在地と実際の労働市場とのギャップを体系的に調べた研究を紹介します。

たとえば、ベンチマークが最も厚く扱っている「コンピュータ・数学」領域は、アメリカの全雇用のうちごく一部にすぎません。一方、デジタル化が進んでいて経済規模も大きいマネジメントや法務といった領域は、ベンチマーク上ではほぼ空白です。スキルの面でも偏りは顕著で、「情報を取得する」「コンピュータを操作する」という二つの細分化スキルにタスクが集中し、現実の職場で欠かせない「他者とのやりとり」はほとんど扱われていません。
以下では、エージェントが「どの仕事を」「どこまで自律的に」こなせるのかを、職業分類という共通のものさしで測る取り組みを見ていきます。