次回の更新記事:企業実務タスクにおけるLLMエージェントの能力を評価…(公開予定日:2024年12月23日)

【DeepMind】ウィキペディアから生み出される脅威の知識データセット(AI論文解説)

   

ナレッジグラフのスーパーパワー

異なるソースからのデータをペアにした並列データセットにより、クロスモダリティ学習に関する研究が可能になりました。画像とキャプションが対になったデータセットは、画像を自然言語で表現するモデルを可能にし、音声と転写データの対になったセットは、音声認識システムや音声合成モデルの学習を可能にしています。

このような複雑なデータを扱うために、ナレッジグラフ(KG)を用いた新しいデータセットが注目されています。これにより、関連するトピックのグラフ構造のからテキストを生成するモデルや、テキストからグラフを抽出・生成するモデルを構築することができます。このような学習するためのデータセットを構築しようとする先行研究は数多くあります。しかし、既存のグラフとテキストのペアデータセットは、ほとんどが小規模なものです。

【告知】AIDB HRの人材側登録者全員に対し、業界研究の手間を削減できるように「AI事業を行う企業リスト」を配布します。無料登録後すぐに閲覧とダウンロードが可能です。▼



ナレッジグラフを用いてより複雑なタスクに対応できるデータセットを作成する課題において、実際にどんな研究が行われているのでしょうか。DeepMind社のLuyu Wangら研究者の発表を紹介します。

研究者らは、ウィキペディアの記事と関連するナレッジグラフを組み合わせることで、データセットの構築を試みました。

▼論文情報

著者:Luyu Wang, Yujia Li, Ozlem Aslan, Oriol Vinyals
タイトル:”WikiGraphs: A Wikipedia – Knowledge Graph Paired Dataset”
Proceedings of the Fifteenth Workshop on Graph-Based Methods for Natural Language Processing (TextGraphs-15),67–82
URL:DOI

複雑な自然言語処理データセットの作成

まずはLuyu Wangらの研究におけるミッション・手法・結果をまとめました。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP