マインクラフトを上手にプレイするAI『JARVIS-1』登場

北京大学やカリフォルニア大学などの研究者たちによってマインクラフト（広大なバーチャル世界で採掘や建設を行うゲーム）を上手にプレイするAI『JARVIS-1』が開発されました。

『JARVIS-1』は、マインクラフト内での非常に複雑な動作を含む200種類以上の行動を可能としています。この技術は、現実世界においてもAIの応用範囲を拡大することを示唆しています。

本記事では、研究背景、『JARVIS-1』がこなすタスク、技術的なポイントの考察、応用例を見ていきます。また、研究の解釈に際しての注意点にも触れます。

参照論文情報

タイトル：JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

著者：Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang

機関：北京大学, カリフォルニア大学ロサンゼルス校, 北京郵電大学, BIGAI

URL：https://doi.org/10.48550/arXiv.2311.05997

GitHub：https://craftjarvis-jarvis1.github.io/

AIの課題とマインクラフト

現代のAIは、オープンワールド環境のような複雑な環境で効果的に機能し、多様なタスクをこなすのは難しいと言われています。複数のモダリティ（視覚、言語指示など）から情報を収集し、それを基にエージェントが長期的な計画を立て実行する能力が求められています。

マインクラフトの環境

オープンワールドな仮想環境の代表例はマインクラフトです。マインクラフトは、無限に近いタスクと複雑な状況が存在するゲームです。従来のAI技術では、このような環境での長期計画とその実行に苦労していました。今、マインクラフトのような動的な環境で、エージェントは常に変化する環境に適応し、多様な状況に対して効果的な行動を取ることが求められており、開発が進められています。

JARVIS-1の開発

この背景の中で、新しい展開の一つが『JARVIS-1』の開発です。『JARVIS-1』は、マインクラフトのようなオープンワールド環境で、極めて多くの異なるタスクを効果的にこなすことが可能であるように設計されたとのことです。

AIの研究にマインクラフトが選ばれる理由

なぜAI研究にマインクラフトが選ばれるのかをもう少し掘り下げます（本研究だけでなく、さまざまな研究事例でマインクラフトが採用されています）。

1. 無限の可能性

マインクラフトは、（プレイしたことがある人はもちろん、実況などを観ても分かりますが、）無限に近い可能性をその広大なバーチャル環境に含んでいます。プレイヤーは、採掘、建設、探索など、様々な活動を自由に行います。この多様性は、AI研究において重要な要素となります。AIエージェントは、より柔軟な問題解決能力を獲得するために多岐にわたる状況やタスクに対応することが必要と言われているためです。

2. 動的な環境

マインクラフトのさらなる特徴は、非常に動的な環境です。ゲームの世界は常に変化し、プレイヤーの行動に応じてさまざまな結果が生じます。AIエージェントにとって予測不可能な要素を含み、それに適応することでAIの適応性と汎用性が試されます。

3. 多様なタスク

マインクラフトには、単純な採掘から複雑な建築プロジェクトに至るまで、幅広いタスクが存在します。タスクの難易度がさまざまであることも特徴です。AIエージェントは、色々なタスクを通じて、環境認識、計画立案、戦略的思考など、多面的な能力を養うとされています。また、タスクの実行を通してAIの学習過程において重要なデータとフィードバックが得られるため、より効果的な学習経路を築くのに向いている環境と言えます。