ナレッジグラフのスーパーパワー
異なるソースからのデータをペアにした並列データセットにより、クロスモダリティ学習に関する研究が可能になりました。画像とキャプションが対になったデータセットは、画像を自然言語で表現するモデルを可能にし、音声と転写データの対になったセットは、音声認識システムや音声合成モデルの学習を可能にしています。
このような複雑なデータを扱うために、ナレッジグラフ(KG)を用いた新しいデータセットが注目されています。これにより、関連するトピックのグラフ構造のからテキストを生成するモデルや、テキストからグラフを抽出・生成するモデルを構築することができます。このような学習するためのデータセットを構築しようとする先行研究は数多くあります。しかし、既存のグラフとテキストのペアデータセットは、ほとんどが小規模なものです。
ナレッジグラフを用いてより複雑なタスクに対応できるデータセットを作成する課題において、実際にどんな研究が行われているのでしょうか。DeepMind社のLuyu Wangら研究者の発表を紹介します。
研究者らは、ウィキペディアの記事と関連するナレッジグラフを組み合わせることで、データセットの構築を試みました。
▼論文情報
著者:Luyu Wang, Yujia Li, Ozlem Aslan, Oriol Vinyals
タイトル:”WikiGraphs: A Wikipedia – Knowledge Graph Paired Dataset”
Proceedings of the Fifteenth Workshop on Graph-Based Methods for Natural Language Processing (TextGraphs-15),67–82
URL:DOI
複雑な自然言語処理データセットの作成
まずはLuyu Wangらの研究におけるミッション・手法・結果をまとめました。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。