
ブラウザ操作までこなすAIエージェントが、人間の代わりに業務システムを動かす日は近いとも言われています。実際に、経費精算、CRM入力、ドキュメント作成など、いわゆる「事務作業の自動化」を売り文句にしたデモは、あちこちで見かけるようになりました。
しかし今回、実際の業務向けSaaSを23種類そろえ、現場のワークフローに沿った106件のタスクをエージェントに解かせるという、かなり踏み込んだ評価が行われました。平均100ステップを超える長期タスクを、CRM、会計、人事、医療事務などの実環境で実行させたところ、デモで見るような華やかな姿とは大きく異なる結果が浮かび上がっています。
具体的にどこまで進められ、どこで詰まるのか。それは、導入を検討している側にとって何を意味するのか。本記事では、評価の枠組みと結果、典型的な失敗の構造、そしてそこから読み取れる実務上の対処を順に整理していきます。