最終更新日:2024/02/22
Tencentのチームが、人間が使うようなタッチやスライド操作でスマートフォンのアプリケーションを操作するAIエージェント、『AppAgent』の開発を発表しました。
Google MapsやYouTubeなど様々なアプリで実効性が検証されているとのことです。
“AppAgent: Multimodal Agents as Smartphone Users”
関連研究
LLMエージェントは同調圧力に弱く考えに固執する傾向があるため、ディベートでバイアスを和らげるのが重要との報告。導入ツールも公開
GPT-4などのLLMをエージェントとして既存ゲームシステムに導入し、NPCをAI化するツール『MindAgent』登場
多様な役割のAIエージェント達に協力してソフトウェアを開発してもらう『ChatDev』登場。論文内容&使い方を解説
マインクラフトを上手にプレイするAI『JARVIS-1』登場
※本記事はAIDBのXポストを転載したものです。
※研究の概要を手早く把握するためのカジュアルな紹介記事です。
『AppAgent』ができること
① アプリ内でテキストや画像を入力する
② タップやスワイプなどの操作を実行する
③ 視覚認識に基づく動作を計画する
④ ユーザーの自然言語にもとづいてアクションする
実験で試されたアプリ
Google Maps/X(Twitter)/Telegram/YouTube/Spotify/Gmail/Lightroom など
実験と結果
① 9つのアプリで45のタスクを実施した
(実際のスマートフォン上)
② 自動探索+人間の動きを学習し上手に実行した
③ Lightroomでの画像編集もユーザーから高評価を得た
なお、複雑なマルチタッチやジェスチャー操作にはまだ対応していないとのことです。
また、実験で試されたアプリやタスク以外にも範囲を広げていく必要があると述べられています。
論文情報
AppAgent: Multimodal Agents as Smartphone Users
https://arxiv.org/abs/2312.13771
著者:Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
機関:Tencent
プロジェクトページ:https://appagent-official.github.io
コード:https://github.com/mnotgod96/AppAgent
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。