本記事では、PCの画面を見て操作できる「Claude 3.5 Computer Use」の可能性と課題についての調査報告を紹介します。
「Claude 3.5 Computer Use」は、ウェブ閲覧やオフィスソフト、ゲームまで、様々なアプリケーションをマウスやキーボードで自動操作できる画期的なシステムです。
しかし実用化に向けては改善の余地も残されており、その性能と限界を探る研究が進められています。
参照論文情報
- タイトル:The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
- 著者:Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
- 所属:Show Lab, National University of Singapore
背景
デスクトップ作業の自動化は、日常的な作業の効率を上げるために重要な研究分野として注目されています。例えば、ウェブサイトの閲覧やオフィスソフトの操作、ゲームのプレイなど、私たちが普段行っている単調な作業を自動化できれば、作業時間を大幅に削減できると考えられています。
このような自動化を実現するため、最近では画像と言葉の両方を理解できるLLMシステムの開発が進められています。例えばWebGPTやCogAgentなどのエージェントシステムは、ウェブサイトの操作から一般的なパソコン操作までを一定のレベルではこなすことができると確認されました。
なお、多くのソフトウェアは内部の仕組みが公開されていないため、直接制御することが難しいという問題があります。そのため、研究者たちは人間のようにマウスやキーボードを使って操作する方法の開発に注力するようになりました。
このような状況の中で、Anthropicという企業がClaude 3.5 Computer Useというシステムを公開しました。このシステムは、画面を見て理解し、人間のように操作できる最初の本格的なツールとして注目を集めています。特徴的なのは、ソフトウェアの内部構造を知らなくても、画面を見るだけで適切な操作ができる点です。
このような新しいタイプのシステムが実際の複雑な環境でどの程度うまく動作するのかは、まだ十分に調べられていません。そのため、様々な実践的な場面でテストを行い、現状の能力と限界を明らかにする必要があります。そこで今回研究者らはClaude 3.5 Computer Useを使用して多岐にわたるタスクを試しました。
以下ではClaude Computer Useについての概要から、各ケーススタディの結果まで紹介します。
Claude Computer Useとはどんなものか
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。