最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

APIベース vs GUIベース LLMエージェントの使い分け

2025.03.18
深堀り解説

最近ではAPIを使うタイプのLLMエージェントに加え、人間のように画面操作を行うGUI型のLLMエージェントも登場しています。本記事は、二つのアプローチを比較し、実際の用途に応じた選択基準や組み合わせ方を整理している研究を紹介します。

背景

LLMは単なる文章生成を超えて、具体的な指示を実行可能な行動へと直接変換する「ソフトウェアエージェント」として活用されるようになっています。ユーザーが言葉で与えた指示をコンピューター上で実際に動作させることで、多様な作業を自動化するものとして注目されています。

そんないわゆるLLMエージェントには、これまで大きく二つのタイプが登場しています。一つはAPIベースのエージェントです。これは、プログラムが提供する明確なインターフェース(API)を通じて外部のシステムやサービスと連携し、自動で処理を進めます。APIエージェントは効率的で信頼性が高く、MicrosoftのCopilotのように、すでに広く産業界でも採用されています。

もう一つは、最近注目を集めているGUIベースのエージェントです。こちらは画面上の視覚的な情報を人間のように見て理解し、マウスクリックやキーボード入力など、実際のユーザー操作を模倣する形でソフトウェアとやり取りをします。GUI(グラフィカルユーザーインターフェース)上での作業を自動化できるため、APIが用意されていない環境でも柔軟に活用できます。

これら二つのエージェントにはそれぞれ長所と短所があります。APIエージェントは高速で信頼性が高い反面、利用可能なAPIがなければ機能できません。対してGUIエージェントは、多様な画面に対応できる反面、視覚的な変化や複雑な操作によるエラーが発生しやすく、処理速度も比較的遅くなりがちです。

こうした状況の中、今回Microsoftの研究者らはAPIとGUIというこの異なるアプローチを比較分析し、それぞれの特性を明確に示すと同時に、双方の強みを生かしたハイブリッド型のエージェントを開発・提案する研究に取り組んでいます。以下で詳しく紹介します。LLMエージェント活用や開発に関心がある方であれば誰でも楽しめる内容になっています。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事