社内のサポートチケットを処理して、ナレッジベースを紐づけて、顧客にメールを送る。人間なら手順書を見ながらこなせる一連の業務を、AIエージェントに任せたらどうなるでしょうか。

これを本気で試した研究があります。8つの業務領域、1,150件のタスク、512種類のツールを備えた企業シミュレーション環境を構築し、14の主要モデルを放り込んでいます。
何が足を引っ張っているのか。ツールの選び方でしょうか、実行の正確さでしょうか。本記事では、企業環境でAIエージェントがどこでつまずくのかを、このベンチマークの設計と実験結果をもとに掘り下げていきます。