次回の更新記事:LLM同士による人工言語コミュニケーションで発見され…(公開予定日:2024年12月16日)

論文の大規模データセット「unarXive 2022」登場!

   

ChatGPTなどに代表される自然言語処理NLP)技術の発展に伴い、研究やアプリケーション開発の土台となる大規模な学術論文データセットの必要性が高まっています。

そんな中、32年間にわたりarXiv.orgに掲載されてきた多分野190万件の学術論文データセット「unarXive 2022」を作成したとの報告がありました。物理学、数学、コンピュータサイエンスなど多様な分野をカバーし、引用ネットワークがより完全で、文書構造や数式表現などの非テキストコンテンツを含むリッチな表現が特徴です。

論文やプロジェクトページのURLは記事下部にて記載しています。

【告知】AIDB HRの人材側登録者全員に対し、業界研究の手間を削減できるように「AI事業を行う企業リスト」を配布します。無料登録後すぐに閲覧とダウンロードが可能です。▼



目次

unarXive 2022の主なデータと応用

学術論文データセットunarXive 2022は主に、1,881,346の論文、63,367,836の参考文献、そして133,744,613のインテキスト引用マーカーで構成されています。

分野別の分布としては、物理学が57%、数学が20%、コンピュータサイエンスが17%、その他の分野が合わせて5%を占めています。

分野別の論文数

また引用ネットワークが充実しており、下の図で示すように「使われやすさ」を重視した内容になっています。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について









■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP