次回の更新記事:会議出席代行システム LLMでどこまでできるか(公開予定日:2025年02月25日)

LLMエージェントが実行可能なPythonコードを生成するフレームワーク『CodeAct』

   

通常のLLMエージェントは、テキストやJSONを用いてAPIツールを操作していますが、柔軟性に欠ける(タスクに制限があるなど)といった課題があります。そこで研究者らは、LLMエージェントが自身のアクションプランに合わせたPythonコードを生成するフレームワーク「CodeAct」を提案しています。コードの実行結果に基づいて動的に行動を修正したり、新たな行動を生成したりすることができます。

参照論文情報

  • タイトル:Executable Code Actions Elicit Better LLM Agents
  • 著者:Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji
  • 所属:University of Illinois Urbana-Champaign, Apple

背景

LLMは単なるテキスト処理を超えて、APIの呼び出しやロボット制御など、より実世界に近いタスクにも適用できるようになってきました。LLMをベースとしたエージェント(いわゆるLLMエージェント)は、ツールの呼び出しやメモリ管理などの機能を備えることで、科学実験の実行といった複雑な現実世界のタスクにも取り組めるようになってきています。

LLMエージェントがツールを使用する際には、通常、テキストやJSONの形式が用いられています。しかし、特定のタスクやツールのみしか使用できないなど、柔軟性に欠けるといった課題があります。一方で、LLMにコードを生成させてロボットやゲームキャラクターを制御する試みもなされてきましたが、事前に定義された制御コードやプロンプトへの依存が大きく、環境からのフィードバックに基づいて動的にアクションを調整・生成することが難しいという問題がありました。

そこで本研究では、PythonコードをLLMエージェントのアクションとして用いるCodeActという枠組みが提案されました。

また、17種類のLLMを用いた詳細な実験により、CodeActの有効性が示されました。単純なツール使用のタスクでは、CodeActはテキストやJSONと同等以上の性能を発揮しました。さらに、複数のツールの連携が必要な複雑なタスクを集めたベンチマークM3ToolEvalでは、CodeActがベースラインに比べて最大20%の精度向上を達成しつつ、必要なアクション数を30%削減できることが確認されました。このパフォーマンスの向上は、LLMの能力が高いほど顕著に表れました。

以下ではフレームワークを詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


AIDBとは


AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP