Tencentの研究者らが、人間のようにタップやスワイプでスマホアプリを操作するAIエージェント『AppAgent』を開発したと報告しています。

■無料で入れる新コミュニティ発足のお知らせ

---以下、記事本文---

最終更新日：2024/02/22

Tencentのチームが、人間が使うようなタッチやスライド操作でスマートフォンのアプリケーションを操作するAIエージェント、『AppAgent』の開発を発表しました。

Google MapsやYouTubeなど様々なアプリで実効性が検証されているとのことです。

“AppAgent: Multimodal Agents as Smartphone Users”

『AppAgent』ができること

① アプリ内でテキストや画像を入力する
② タップやスワイプなどの操作を実行する
③ 視覚認識に基づく動作を計画する
④ ユーザーの自然言語にもとづいてアクションする

Google Maps／X（Twitter）／Telegram／YouTube／Spotify／Gmail／Lightroom　など

① 9つのアプリで45のタスクを実施した
（実際のスマートフォン上）
② 自動探索＋人間の動きを学習し上手に実行した
③ Lightroomでの画像編集もユーザーから高評価を得た

なお、複雑なマルチタッチやジェスチャー操作にはまだ対応していないとのことです。
また、実験で試されたアプリやタスク以外にも範囲を広げていく必要があると述べられています。

AppAgent: Multimodal Agents as Smartphone Users
https://arxiv.org/abs/2312.13771
著者：Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
機関：Tencent
プロジェクトページ：https://appagent-official.github.io
コード：https://github.com/mnotgod96/AppAgent

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。