AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,111件) 短信(808件) 🔒 論文(55,140件) 🔒

リアルなWindowsOS環境でのエージェント能力を評価する『WindowsAgentArena』およびエージェント『Navi（ナビ）』Microsoftが開発

2024.09.182025.03.08

この記事では、Microsoftの研究チームが開発した新しいエージェント評価環境「WindowsAgentArena」と、それを使って開発・評価されたマルチモーダルエージェント「Navi」を紹介します。

WindowsAgentArenaは、実際の Windows オペレーティングシステム内で動作するエージェントの性能を測定するための総合的なベンチマークです。
Azureクラウド上で完全に並列化可能なため、これまで数日かかっていた評価プロセスを約 20 分で完了できるようになり、エージェントの開発サイクルが大幅に短縮されて迅速な改良ができるようになりました。

研究チームは、この新しい環境を活用して「Navi」というマルチモーダルエージェントを開発しました。Naviの性能評価の結果や、開発の過程で得られた知見は、今後のOS操作エージェント研究にとって重要なヒントとなるものです。

参照論文情報

タイトル：Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

著者：Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui

所属：Microsoft, Carnegie Mellon University, Columbia University

背景

LLMをコンピューターエージェントとして活用できる可能性が注目されています。最近のLLMは画像の説明文を作成したり視覚的な推論を行ったりするマルチモーダルな能力が向上したことで、エージェントとしての基礎ができてきたのです。

しかし、現実の人間が行うワークフローの複雑さは、これまでのテスト環境では十分に捉えられていないという課題がありました。私たちは日常的に、複数のプログラムを切り替えたり、アプリケーションの設定を変更したり、グラフィカルインターフェースとコマンドラインインターフェースを行き来しながら複雑な作業を行っています。

この問題に対応するため、さまざまなベンチマークが開発されてきました。しかし、今までのベンチマークは特定のモダリティやドメインに限定されていたり、評価に長時間を要するという問題がありました。

そこで今回研究者らは、Windowsに焦点を当てることで、最も一般的なコンピューターOS（市場シェア73%）におけるエージェントの性能評価を可能にする「WindowsAgentArena」を開発しました。

WindowsAgentArenaは初期条件と自動実行ベースの評価基準を備えたさまざまなタスクセットを提供し、人間の操作記録に従うのではなく、タスク完了に対して報酬を与える仕組みを採用しています。完全にスケーラブルで、Azure仮想マシン上のセキュアなDockerコンテナにデプロイ可能です。その結果、これまで数日かかっていたベンチマーク評価を、わずか20分程度で完了できるようになったとのことです。

さらに研究者らはこの環境を応用して、WindowsOSでの操作に強みを持つエージェント「Navi」を開発しました。

以下で研究全体の詳細を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
AI検索（公開記事が対象）
PDF翻訳・パーソナライズなど各機能のお試し利用

プレミアム会員の特典

1,000本以上の全過去記事を無制限閲覧
論文ベースの深掘り解説を毎日更新で購読
AI検索の対象が短信・論文（5万本以上）まで拡大
記事で取り上げた論文にその場でAIに質問
論文から生まれたエージェントスキルライブラリ
PDF翻訳・PDF変換をフル活用
あなた専用の論文・記事おすすめが毎日届く

まずはアカウントを作成

ログイン

プレミアム会員について

リアルなWindowsOS環境でのエージェント能力を評価する『WindowsAgentArena』およびエージェント『Navi（ナビ）』Microsoftが開発

背景

記事検索

こちらもどうぞ

AIの理解力を問い直す　責任から共感まで広がる最前線

🔒 言語学の観点から導くプロンプト構造の分類フレームワーク　LLMの性能に与える影響の定量評価

背景

記事検索

こちらもどうぞ

AIの理解力を問い直す 責任から共感まで広がる最前線

🔒 言語学の観点から導くプロンプト構造の分類フレームワーク LLMの性能に与える影響の定量評価

AIの理解力を問い直す　責任から共感まで広がる最前線

🔒 言語学の観点から導くプロンプト構造の分類フレームワーク　LLMの性能に与える影響の定量評価