実際の企業で使われているシステムは、私たちが普段触れるアプリとは根本的に異なります。データベースが複雑に絡み合い、ある操作が思わぬ場所に影響を及ぼす、そんな世界です。そこにAIエージェントを放り込むと、いったい何が起きるのでしょうか。

背景
LLMを「エージェント」として活用する動きが加速しています。エージェントとは、単に質問に答えるだけでなく、ツールを使ったり、データベースを操作したりして、実際のタスクを自律的にこなすAIのことです。カレンダーに予定を入れる、メールを送る、システム上で申請を処理する。そうした作業をAIに任せようという試みが広がっています。
ところが、企業で実際に使われているシステムは、私たちが想像する以上に複雑です。たとえば、ある社員に資産を割り当てるという単純な操作を考えてみてください。その裏では「この社員が持てる資産は3つまで」「資産のセキュリティレベルが社員の権限を超えていないか」といったルールが自動でチェックされ、条件を満たさなければ別の処理が走ります。こうした「ワークフロー」や「ビジネスルール」と呼ばれる仕組みが、企業システムには何千と埋め込まれています。
厄介なのは、これらの処理がエージェントからは見えないことです。エージェントが受け取るのは「操作が成功しました」という表面的な応答だけで、その裏で何が起きているかは知らされません。結果として、エージェント自身は正しく動いたつもりでも、システム内部では想定外の連鎖反応が起き、知らぬ間にルール違反を犯していた。そんな事態が起こり得ます。
そこで本記事では、こうした企業システム特有の複雑さに対してLLMエージェントがどこまで対応できるのか、その実力を検証した研究を詳しく見ていきます。