LLMエージェントが実行可能なPythonコードを生成するフレームワーク『CodeAct』

通常のLLMエージェントは、テキストやJSONを用いてAPIツールを操作していますが、柔軟性に欠ける（タスクに制限があるなど）といった課題があります。そこで研究者らは、LLMエージェントが自身のアクションプランに合わせたPythonコードを生成するフレームワーク「CodeAct」を提案しています。コードの実行結果に基づいて動的に行動を修正したり、新たな行動を生成したりすることができます。

参照論文情報

タイトル：Executable Code Actions Elicit Better LLM Agents

著者：Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji

所属：University of Illinois Urbana-Champaign, Apple

背景

LLMは単なるテキスト処理を超えて、APIの呼び出しやロボット制御など、より実世界に近いタスクにも適用できるようになってきました。LLMをベースとしたエージェント（いわゆるLLMエージェント）は、ツールの呼び出しやメモリ管理などの機能を備えることで、科学実験の実行といった複雑な現実世界のタスクにも取り組めるようになってきています。

LLMエージェントがツールを使用する際には、通常、テキストやJSONの形式が用いられています。しかし、特定のタスクやツールのみしか使用できないなど、柔軟性に欠けるといった課題があります。一方で、LLMにコードを生成させてロボットやゲームキャラクターを制御する試みもなされてきましたが、事前に定義された制御コードやプロンプトへの依存が大きく、環境からのフィードバックに基づいて動的にアクションを調整・生成することが難しいという問題がありました。

そこで本研究では、PythonコードをLLMエージェントのアクションとして用いるCodeActという枠組みが提案されました。

また、17種類のLLMを用いた詳細な実験により、CodeActの有効性が示されました。単純なツール使用のタスクでは、CodeActはテキストやJSONと同等以上の性能を発揮しました。さらに、複数のツールの連携が必要な複雑なタスクを集めたベンチマークM3ToolEvalでは、CodeActがベースラインに比べて最大20%の精度向上を達成しつつ、必要なアクション数を30%削減できることが確認されました。このパフォーマンスの向上は、LLMの能力が高いほど顕著に表れました。

以下ではフレームワークを詳しく紹介します。