データの良さはAIの良さにつながる。
深層学習(DL)の飛躍的な成長によって、自然言語処理分野に大きな進歩をもたらしました。現在、画像キャプション生成やマルチモーダル学習(様々な種類の入力情報を利用するAI)の分野でもDLは用いられています。これらDLのモデルにおいて、重要なのは大規模なデータセットを活用して学習を行うことです。
モデルの有効性はデータのサイズや品質と関連しています。データセットのサイズに対してパフォーマンスが対数的に増大することが分かっているため、データのサイズはとても重要です。また、対象となる言語の数もとても重要です。多言語のデータセットを使うことで、公正な研究を行うことが可能になります。
データセットの規模や対象となる言語の数が少ないという問題点に対して、実際にはどのようなデータセットが作られたのでしょうか。Googleに所属しているKrishna Srinivasanら研究者の発表を紹介します。
結論として研究者らは、Wikipediaのデータを使うことで、データセットの作成を行いました。
Wikipediaを用いたデータセットの作成
まずはKrishna Srinivasanらの研究におけるミッション・手法・結果をまとめました。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。