動画中から”難関”アラビア語の抽出なるか（AI×エンタメ）【論文】

動画中の文字の認識はむずかしい

テレビ番組に字幕やテロップがあるおかげで、番組をじっくり観ていなくても、話の筋を簡単に目で追うことができる。テレビに限らずYouTubeなどでも、動画中に埋め込まれたテキストは、その動画コンテンツの重要ポイントを視聴者に伝えている場合が多い。

動画のようなファイルサイズの大きいデータを保存できる大容量記憶技術の急速な進歩のおかげで、世界中で膨大な数のニュース動画が保存されるようになった。想像してみてほしい。これらの膨大な動画のすべてに対し、人間が手動でテキストを埋め込む（アノテーションする）ことはできるだろうか？きっとお手上げ状態になることだろう。

こうした人手不足な状況で活躍が期待されているのが、動画中の文字を自動認識する技術（OCR：光学式文字認識）である。OCRは通常、画像中の文字を認識するものだが、その応用として、これまでいくつかの研究で動画中の文字認識が試されてきた。しかし、研究事例の多くはラテン語や中国語に特化しており、アラビア語には対応していなかった。

チュニジアにあるスース大学のO. Zayeneら研究者は、動画における文字認識に取り組む上で、複数タスクに対応できるアラビア語のデータセットがなかったという課題に着目し、AcTiVデータセットの新しいバージョンを紹介し、複数のテキスト検出および認識アルゴリズムを比較した。結果、性能の良い手法が明らかになった。

【法人向け】課題に応じた先行研究を知りたい企業さま向けに、「先行研究調査サービス」を提供しています！サービスの概要はこちらから！