「ビジュアル・ストーリーテリング」の魔法【AI×教育】（論文解説）

「絵だけ用意すれば、『あらすじ』は機械が生成してくれる」そんなことが出来る時代が来るかもしれません。

機械による物語の作成

一連の画像に基づいてストーリー（あらすじ、説明文）を作成することは、人間にとって自然な作業です。しかし機械にとっては「普通にできること」ではありません。

視覚で物語を伝える技術－Visual Storytelling－（ビジュアル・ストーリーテリング、VST）をご存知でしょうか。画像に含まれる複雑なコンテンツを理解するだけでなく、画像間で発生したり変化したりするイベントを推論することがモデルに求められるため、幅広い研究分野の対象となっています。

ビジュアル・ストーリーテリングの分野で重要なのは、文章を絵に起こすことだけではないのです。視覚障害者にとっては、すべての画像が言葉として情報を受け取れるようになれば、とても過ごしやすくなります。

画像からストーリーを作成する技術において、どのような研究が行われているのでしょうか。東京大学のHong Chenら研究者の研究を紹介します。

研究者らは、各画像のコンセプトを提案するコンセプト選択モジュールを使用して、過不足のない画像固有のストーリーを作成することを試みました。

▼論文情報

著者：Hong Chen, Yifei Huang, Hiroya Takamura, Hideki Nakayama
タイトル：”Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling”
URL：DOI

※この記事で扱う「ストーリー」「物語」という語句は、空想的な世界を示すものではありません。画像（イメージ）を表現する「説明」に近い意味を持ちます。

画像からコンセプトを読み取りストーリー作成

まずはHong Chenらの研究におけるミッション・手法・結果をまとめました。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

中村隼太

投稿者の過去記事

深層学習での「高齢者の異常な行動」検知とは【AI×社会】（論文解説）

機械学習による自閉症の早期診断ツールとは【AI×メンタルヘルス】（論文解説）