調理プロセスを記述しただけのレシピ文章から、「ムービーおよび画像、文、ナレーション音声」で構成されるレシピ動画を生成するシステムが開発されました。Adobeに所属する研究グループによる報告です。
- レシピ文書を自動的にビデオに変換するシステム
- アルゴリズムを使用したビデオの自動生成とパフォーマンス評価
- マルチモーダルなアセットの取得と最適化スキーム
- データセットの利用拡大とシステム改良に向けた今後の展望
- まとめ
- 関連研究
レシピ文書を自動的にビデオに変換するシステム
Adobeの研究グループは、新しい深層学習に基づくシステム「Recipe2Video」を開発しています。
このシステムは、レシピ文書をなイラスト付きビデオに自動変換することができます。最適な画像とビデオを選択し、ビジュアルとテキスト情報を組み合わせたコンテンツを提供します。
以下は、作成されたレシピ動画のデモムービーです。
その他のデモムービーはこちらのGoogle driveに格納されています。
アルゴリズムを使用したビデオの自動生成とパフォーマンス評価
「Recipe2Video」は、Viterbiベースの最適化アルゴリズム(※)を使用して、内容に一貫性のあるビデオを作成しています。
※Viterbiベースの最適化アルゴリズム・・・何かの状態が与えられた時に、現在の状態に基づいて、その後に生じる状態の最も尤らしい(最も起こり得る)並びを探索するアルゴリズム。
自動化されたメトリックを設計し、2つのレシピデータセット(RecipeQA、Tasty Videos)での複数のベースラインとのパフォーマンスを比較しました。結果は、Recipe2Videoがしっかりと意味のあるビデオを生成していることを示しました。
マルチモーダルなアセットの取得と最適化スキーム
今回のシステムでは、マルチモーダルなアセット(複数種類のデータ)を取得し、時間、情報カバレッジ、モダリティの適切性などの異なる次元に基づいて、それらをランク付けするために様々な技術を使用しています。
それらをViterbiベースの最適化スキームを使用してビデオに縫い合わせます。Recipe2Videoは、繊細で簡潔なセマンティックバリアント(※)を含む、ユーザの好みに応じて対応することもできます。
※セマンティックバリアント・・・同じ言語の中で意味が異なる単語や表現のことを指す。つまり、同じ言葉が複数の意味を持つこと。同音異義語。
データセットの利用拡大とシステム改良に向けた今後の展望
研究者らは、主に技術的な観点から今後の展望を以下のように述べています。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。