論文の大規模データセット「unarXive 2022」登場!

   
★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。
★コンサルティングサポート(調査・研修・開発支援)をご希望の方はお問合せください。

ChatGPTなどに代表される自然言語処理NLP)技術の発展に伴い、研究やアプリケーション開発の土台となる大規模な学術論文データセットの必要性が高まっています。

そんな中、32年間にわたりarXiv.orgに掲載されてきた多分野190万件の学術論文データセット「unarXive 2022」を作成したとの報告がありました。物理学、数学、コンピュータサイエンスなど多様な分野をカバーし、引用ネットワークがより完全で、文書構造や数式表現などの非テキストコンテンツを含むリッチな表現が特徴です。

論文やプロジェクトページのURLは記事下部にて記載しています。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

目次

unarXive 2022の主なデータと応用

学術論文データセットunarXive 2022は主に、1,881,346の論文、63,367,836の参考文献、そして133,744,613のインテキスト引用マーカーで構成されています。

分野別の分布としては、物理学が57%、数学が20%、コンピュータサイエンスが17%、その他の分野が合わせて5%を占めています。

分野別の論文数





また引用ネットワークが充実しており、下の図で示すように「使われやすさ」を重視した内容になっています。

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP