次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

ディープラーニングでレシピ文章をレシピ動画に変換するシステム「Recipe2video」

2023.03.08
深堀り解説

調理プロセスを記述しただけのレシピ文章から、「ムービーおよび画像、文、ナレーション音声」で構成されるレシピ動画を生成するシステムが開発されました。Adobeに所属する研究グループによる報告です。

目次

レシピ文書を自動的にビデオに変換するシステム

Adobeの研究グループは、新しい深層学習に基づくシステム「Recipe2Video」を開発しています。

このシステムは、レシピ文書をなイラスト付きビデオに自動変換することができます。最適な画像とビデオを選択し、ビジュアルとテキスト情報を組み合わせたコンテンツを提供します。

以下は、作成されたレシピ動画のデモムービーです。

その他のデモムービーはこちらのGoogle driveに格納されています。

アルゴリズムを使用したビデオの自動生成とパフォーマンス評価

「Recipe2Video」は、Viterbiベースの最適化アルゴリズム(※)を使用して、内容に一貫性のあるビデオを作成しています。

Viterbiベースの最適化アルゴリズム・・・何かの状態が与えられた時に、現在の状態に基づいて、その後に生じる状態の最も尤らしい(最も起こり得る)並びを探索するアルゴリズム。

自動化されたメトリックを設計し、2つのレシピデータセット(RecipeQA、Tasty Videos)での複数のベースラインとのパフォーマンスを比較しました。結果は、Recipe2Videoがしっかりと意味のあるビデオを生成していることを示しました。

マルチモーダルなアセットの取得と最適化スキーム

今回のシステムでは、マルチモーダルなアセット(複数種類のデータ)を取得し、時間、情報カバレッジ、モダリティの適切性などの異なる次元に基づいて、それらをランク付けするために様々な技術を使用しています。

それらをViterbiベースの最適化スキームを使用してビデオに縫い合わせます。Recipe2Videoは、繊細で簡潔なセマンティックバリアント(※)を含む、ユーザの好みに応じて対応することもできます。

※セマンティックバリアント・・・同じ言語の中で意味が異なる単語や表現のことを指す。つまり、同じ言葉が複数の意味を持つこと。同音異義語。

データセットの利用拡大とシステム改良に向けた今後の展望

研究者らは、主に技術的な観点から今後の展望を以下のように述べています。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事