この記事では、Microsoftの研究チームが開発した新しいエージェント評価環境「WindowsAgentArena」と、それを使って開発・評価されたマルチモーダルエージェント「Navi」を紹介します。
WindowsAgentArenaは、実際の Windows オペレーティングシステム内で動作するエージェントの性能を測定するための総合的なベンチマークです。
Azureクラウド上で完全に並列化可能なため、これまで数日かかっていた評価プロセスを約 20 分で完了できるようになり、エージェントの開発サイクルが大幅に短縮されて迅速な改良ができるようになりました。
研究チームは、この新しい環境を活用して「Navi」というマルチモーダルエージェントを開発しました。Naviの性能評価の結果や、開発の過程で得られた知見は、今後のOS操作エージェント研究にとって重要なヒントとなるものです。
参照論文情報
- タイトル:Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale
- 著者:Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui
- 所属:Microsoft, Carnegie Mellon University, Columbia University
背景
LLMをコンピューターエージェントとして活用できる可能性が注目されています。最近のLLMは画像の説明文を作成したり視覚的な推論を行ったりするマルチモーダルな能力が向上したことで、エージェントとしての基礎ができてきたのです。
しかし、現実の人間が行うワークフローの複雑さは、これまでのテスト環境では十分に捉えられていないという課題がありました。私たちは日常的に、複数のプログラムを切り替えたり、アプリケーションの設定を変更したり、グラフィカルインターフェースとコマンドラインインターフェースを行き来しながら複雑な作業を行っています。
この問題に対応するため、さまざまなベンチマークが開発されてきました。しかし、今までのベンチマークは特定のモダリティやドメインに限定されていたり、評価に長時間を要するという問題がありました。
そこで今回研究者らは、Windowsに焦点を当てることで、最も一般的なコンピューターOS(市場シェア73%)におけるエージェントの性能評価を可能にする「WindowsAgentArena」を開発しました。
WindowsAgentArenaは初期条件と自動実行ベースの評価基準を備えたさまざまなタスクセットを提供し、人間の操作記録に従うのではなく、タスク完了に対して報酬を与える仕組みを採用しています。完全にスケーラブルで、Azure仮想マシン上のセキュアなDockerコンテナにデプロイ可能です。その結果、これまで数日かかっていたベンチマーク評価を、わずか20分程度で完了できるようになったとのことです。
さらに研究者らはこの環境を応用して、WindowsOSでの操作に強みを持つエージェント「Navi」を開発しました。
以下で研究全体の詳細を紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。