Tencentの研究者らが、人間のようにタップやスワイプでスマホアプリを操作するAIエージェント『AppAgent』を開発したと報告しています。
Google MapsやYouTubeなど様々なアプリにおいて45のタスクで実効性が検証されているとのことです。
– “AppAgent: Multimodal Agents as Smartphone Users”
■『AppAgent』ができること
① アプリ内でテキストや画像を入力する
② タップやスワイプなどの操作を実行する
③ 視覚認識に基づく動作を計画する
④ ユーザーの自然言語にもとづいてアクションする
■実験で試されたアプリ
Google Maps/X(Twitter)/Telegram/YouTube/Spotify/Gmail/Lightroom など
■実験と結果
① 9つのアプリで45のタスクを実施した
(実際のスマートフォン上)
② 自動探索+人間の動きを学習し上手に実行した
③ Lightroomでの画像編集もユーザーから高評価を得た
なお、複雑なマルチタッチやジェスチャー操作にはまだ対応していないとのことです。
また、実験で試されたアプリやタスク以外にも範囲を広げていく必要があると述べられています。