次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)

スマホを操作するAIエージェントAppAgent

エージェント(AIエージェント、ツール使用、自律的なタスク実行、MCP、computer use)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Tencentの研究者らが、人間のようにタップやスワイプでスマホアプリを操作するAIエージェント『AppAgent』を開発したと報告しています。

Google MapsやYouTubeなど様々なアプリにおいて45のタスクで実効性が検証されているとのことです。

– “AppAgent: Multimodal Agents as Smartphone Users”

■『AppAgent』ができること
① アプリ内でテキストや画像を入力する
② タップやスワイプなどの操作を実行する
③ 視覚認識に基づく動作を計画する
④ ユーザーの自然言語にもとづいてアクションする

■実験で試されたアプリ
Google Maps/X(Twitter)/Telegram/YouTube/Spotify/Gmail/Lightroom など

■実験と結果
① 9つのアプリで45のタスクを実施した
(実際のスマートフォン上)
② 自動探索+人間の動きを学習し上手に実行した
③ Lightroomでの画像編集もユーザーから高評価を得た

なお、複雑なマルチタッチやジェスチャー操作にはまだ対応していないとのことです。
また、実験で試されたアプリやタスク以外にも範囲を広げていく必要があると述べられています。

📄 参照論文

■論文情報

著者: 著者:Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang 他

関連記事