この記事は、DeepMindの研究者でありこの記事で解説する論文の著者であるJulian Schrittwieserに事前に論文使用の許可をとりました。なんと内容のチェックまでしてもらえた上に「素晴らしいし、読みやすいね」とコメントをいただきました!ありがとうございます!
DeepMind発の強化学習アルゴリズム
2016年、AlphaGoが囲碁でプロ棋士を倒しました。その2年後に登場したAlphaZeroはルールのみから自己学習し、難解な3つのゲーム(囲碁、チェス、将棋)で人間を超えました。ただし、目覚ましい成功を収めたのは古典的なゲームだけではありません。これらの先読み探索に基づく計画アルゴリズムは、物流や化学などの実世界にも大きな影響を与えてきました。
しかし、実世界を構成する環境は複雑で未知であることばかりです。先読み探索ではゲームのルールや正確なシミュレータなどの環境のダイナミクスの知識に依存しているため、実世界の領域に直接適応できません。そこで環境に関する知識を必要とせず、複雑な領域においても活用できる手法が必要となっていました。
ダイナミクスに関する知識を必要としない強化学習アルゴリズムの開発という課題において、実際にどんな研究が行われているのでしょうか。Googleの子会社であるDeepMindのJulian Schrittwieser、Thomas Hubertら研究者の発表を紹介しましょう。
研究者らは、AlphaZeroのPolicy networkおよびValue networkを継承した新しいモデルベース強化学習の「MuZero」を構築し、囲碁・チェス・将棋に加えて難易度の高いAtariのゲームにおいて最先端の性能を実現しました。
エージェントの意思決定に重要なことだけを学習させる
まずはJulian、Thomasらの研究におけるミッション・手法・結果をまとめました。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。