LLM関連データセットが極めて網羅的に調査された論文が公開されています。
事前学習、指示調整、嗜好調整、評価といった各用途に分けて数多くのデータセットを掲載しています。
“Datasets for Large Language Models: A Comprehensive Survey”より
下記では、本文よりLLMデータセットにおける課題と今後の方向性について紹介します。
■事前学習コーパス
– 現状はウェブスクレイピングデータに偏りがち
– 最新の知識が欠けているため自動更新が必要
– システマティックな品質評価法を確立すべき
■指示調整データ
– カテゴリが混在しているため整理する
– 一般的だけでなく専門的なドメインも用意する
– 品質の明確な評価方法を作る
■嗜好データ
– 高品質なデータを充実させる
– 統一された評価基準を作成する
■評価のためのデータセット
– モデルベースでスコア付けする
– データ形式を標準化する