最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

視覚から言語を理解して未来を予測する次世代のAI「Dynalang」

2023.08.07
深堀り解説

UCバークレーの研究者らは、まるでアルファ碁とChatGPTを混ぜて強くしたようなAIエージェント「Dynalang」の仕組みを構築し、開発を進めています。すでに一部のタスクで優れたパフォーマンスを見せています。

Dynalangは、視覚的な経験とそれに関連する言語的な記述を同時に学び、その知識を使って未来を予測します。この仕組みは、人間の脳の働きを模倣したものです。

参照論文情報

関連研究

Dynalangの概要

Dynalangは、言語を用いて未来を予測するAIエージェントの設計を提唱する研究です。

そのコアコンセプトは、言語がエージェントに未来を予測する手助けをするというもので、言語理解と未来予測の統合を可能にする自己教師付き学習目標を提供します。

Dynalangにおいてエージェントは、テキストと画像の未来の表現を予測するための多モーダルな世界モデルを学習し、想像されたモデルの展開から行動を学習します。

Dynalangを使って、未来の観測と報酬を予測する例。

主要な手法と技術

Dynalangの主要な技術は、言語と視覚世界をつなげるための強力な自己教師付き学習目標を設定することです。エージェントは視覚的な状況と言語の関連性を理解し、未来の言語、ビデオ、報酬を予測する能力を獲得します。

未来予測の重要性

Dynalangは、エージェントが未来を予測することにより、言語の理解を深めることを可能にします。例えば、「私はボウルを片付けた」という発話は、エージェントが将来の観察(例えば、キャビネットを開けたときにボウルがそこにあるという観察)についてより良い予測をするのに役立ちます。

視覚入力と多様な言語特性を持つ環境の一覧。

言語による世界モデリング

Dynalangは、世界のモデルを言語を用いて学習します。エージェントは、視覚的およびテキストの両方の入力を受け取り、それらを潜在空間に圧縮する世界モデルを学習します。その後、エージェントは、環境で行動を起こすことで収集された経験から、未来の潜在表現を予測するように世界モデルを訓練します。

世界モデルの学習とポリシー学習の過程。

行動学習

Dynalangでは、世界モデルから派生した潜在表現を入力として、エージェントがタスク報酬を最大化するような行動を学習します。世界モデルの学習と行動学習が分離しているため、Dynalangは、行動やタスク報酬がない状況でも、テキストのみやビデオのみのデータに事前訓練を施すことが可能です。

効果性について

Dynalangの有効性を検証するために、研究者らは下記のような多様な環境とタスクでの評価を行いました。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事