LLMデータセット網羅的調査と課題・方向性

2024.03.02

データ（データセット構築、合成データ、データ拡張）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLM関連データセットが極めて網羅的に調査された論文が公開されています。

事前学習、指示調整、嗜好調整、評価といった各用途に分けて数多くのデータセットを掲載しています。

“Datasets for Large Language Models: A Comprehensive Survey”より

下記では、本文よりLLMデータセットにおける課題と今後の方向性について紹介します。

■事前学習コーパス
– 現状はウェブスクレイピングデータに偏りがち
– 最新の知識が欠けているため自動更新が必要
– システマティックな品質評価法を確立すべき

■指示調整データ
– カテゴリが混在しているため整理する
– 一般的だけでなく専門的なドメインも用意する
– 品質の明確な評価方法を作る

■嗜好データ
– 高品質なデータを充実させる
– 統一された評価基準を作成する

■評価のためのデータセット
– モデルベースでスコア付けする
– データ形式を標準化する

論文情報：

📎 論文を読む（arxiv.org）

こちらもどうぞ