次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

LLMエージェントが実行可能なPythonコードを生成するフレームワーク『CodeAct』

2024.05.13
深堀り解説

通常のLLMエージェントは、テキストやJSONを用いてAPIツールを操作していますが、柔軟性に欠ける(タスクに制限があるなど)といった課題があります。そこで研究者らは、LLMエージェントが自身のアクションプランに合わせたPythonコードを生成するフレームワーク「CodeAct」を提案しています。コードの実行結果に基づいて動的に行動を修正したり、新たな行動を生成したりすることができます。

参照論文情報

  • タイトル:Executable Code Actions Elicit Better LLM Agents
  • 著者:Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji
  • 所属:University of Illinois Urbana-Champaign, Apple

背景

LLMは単なるテキスト処理を超えて、APIの呼び出しやロボット制御など、より実世界に近いタスクにも適用できるようになってきました。LLMをベースとしたエージェント(いわゆるLLMエージェント)は、ツールの呼び出しやメモリ管理などの機能を備えることで、科学実験の実行といった複雑な現実世界のタスクにも取り組めるようになってきています。

LLMエージェントがツールを使用する際には、通常、テキストやJSONの形式が用いられています。しかし、特定のタスクやツールのみしか使用できないなど、柔軟性に欠けるといった課題があります。一方で、LLMにコードを生成させてロボットやゲームキャラクターを制御する試みもなされてきましたが、事前に定義された制御コードやプロンプトへの依存が大きく、環境からのフィードバックに基づいて動的にアクションを調整・生成することが難しいという問題がありました。

そこで本研究では、PythonコードをLLMエージェントのアクションとして用いるCodeActという枠組みが提案されました。

また、17種類のLLMを用いた詳細な実験により、CodeActの有効性が示されました。単純なツール使用のタスクでは、CodeActはテキストやJSONと同等以上の性能を発揮しました。さらに、複数のツールの連携が必要な複雑なタスクを集めたベンチマークM3ToolEvalでは、CodeActがベースラインに比べて最大20%の精度向上を達成しつつ、必要なアクション数を30%削減できることが確認されました。このパフォーマンスの向上は、LLMの能力が高いほど顕著に表れました。

以下ではフレームワークを詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事