社内システムの操作をAIエージェントに任せたい。そう考える企業が急速に増えています。チケット起票、在庫更新、顧客レコードの編集。こうしたタスクをエージェントに代行させるために、ブラウザを自動操作させたり、専用のツール群を整備したりと、各社がさまざまな仕組みを試しています。
ところが最近、ある研究チームが面白い実験をしました。ターミナル(コマンドを打ち込む黒い画面)とファイルシステムだけを与えたシンプルなエージェントに、ServiceNow、GitLab、ERPNextという3つの業務プラットフォームで730近いタスクを解かせました。高度なツール群もブラウザも使わせず、curlコマンドとAPIだけで戦わせた結果は、多くの人の予想を裏切るものでした。

iPad Proを注文するという一つのタスクを見てみましょう。ツール連携型のエージェントは、カタログ商品を見つけたものの「注文する」ためのツールが存在せず、代わりにサポートチケットを起票して失敗しました。ブラウザ型はカタログページにたどり着いたものの、画面の入れ子構造に翻弄され、25ステップ、4ドル以上かけて結局注文できませんでした。一方、ターミナル型はJSONの書式エラーや間違ったAPIの宛先に遭遇しながらも、送信データを一時ファイルに書き出し、別の宛先を自力で探し当てて、11ステップ、わずか0.78ドルで注文を完了しています。
エージェント三つ巴の構図