最近ではAPIを使うタイプのLLMエージェントに加え、人間のように画面操作を行うGUI型のLLMエージェントも登場しています。本記事は、二つのアプローチを比較し、実際の用途に応じた選択基準や組み合わせ方を整理している研究を紹介します。

参照論文情報は記事の下部に記載されています。
背景
LLMは単なる文章生成を超えて、具体的な指示を実行可能な行動へと直接変換する「ソフトウェアエージェント」として活用されるようになっています。ユーザーが言葉で与えた指示をコンピューター上で実際に動作させることで、多様な作業を自動化するものとして注目されています。
そんないわゆるLLMエージェントには、これまで大きく二つのタイプが登場しています。一つはAPIベースのエージェントです。これは、プログラムが提供する明確なインターフェース(API)を通じて外部のシステムやサービスと連携し、自動で処理を進めます。APIエージェントは効率的で信頼性が高く、MicrosoftのCopilotのように、すでに広く産業界でも採用されています。
もう一つは、最近注目を集めているGUIベースのエージェントです。こちらは画面上の視覚的な情報を人間のように見て理解し、マウスクリックやキーボード入力など、実際のユーザー操作を模倣する形でソフトウェアとやり取りをします。GUI(グラフィカルユーザーインターフェース)上での作業を自動化できるため、APIが用意されていない環境でも柔軟に活用できます。
これら二つのエージェントにはそれぞれ長所と短所があります。APIエージェントは高速で信頼性が高い反面、利用可能なAPIがなければ機能できません。対してGUIエージェントは、多様な画面に対応できる反面、視覚的な変化や複雑な操作によるエラーが発生しやすく、処理速度も比較的遅くなりがちです。
こうした状況の中、今回Microsoftの研究者らはAPIとGUIというこの異なるアプローチを比較分析し、それぞれの特性を明確に示すと同時に、双方の強みを生かしたハイブリッド型のエージェントを開発・提案する研究に取り組んでいます。以下で詳しく紹介します。LLMエージェント活用や開発に関心がある方であれば誰でも楽しめる内容になっています。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。