LLMデータ処理を一元化 Data-Juicer

2023.09.07

データ（データセット構築、合成データ、データ拡張）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMが利用しやすい形にデータを料理（❶前処理、❷変換、❸評価）してくれるフレームワーク『Data-Juicer』が登場しました。
アリババによる開発です。

○ Daoyuan Chen et al. Data-Juicer: A One-Stop Data Processing System for Large Language Models

■ポイント
✔️特定のデータでLLMを強化する流れが大きくなっている
✔️既存データセットには「LLMがそのまま使えるケース」と「加工が必要なケース」がある
✔️「加工が必要なケース」に対応するLLM特化の一元的なデータ処理システム『Data-Juicer』が登場した

■『Data-Juicer』に含まれるもの
① 50以上の多機能なオペレータ※1
② 複数のプラグイン可能なツール※2

※1 オペレータ
フォーマッタ、マッパー、フィルター、重複除去など、50以上の組み込みプログラム

※2 プラグインツール
分析器、ビジュアライザ、品質分類器、参照LLM（ツールとしてのLLM）など

■『Data-Juicer』の特徴
① 初心者から経験豊富なユーザーまで、多様なバックグラウンドの方に対応
② 高いデータ処理効率とスケーラビリティ

■実験結果
① 16のLLMベンチマークで平均7.45%の相対的なスコア向上
② 単一マシンの処理時間を最大88.7%削減
③ メモリとCPU使用量をそれぞれ77.1%、73.1%削減
④ 分散コンピューティングを利用した場合、処理速度は7.91倍に向上

なお、カスタムオペレータを簡単に追加でき、拡張性が高いとのことです。

○ Data-Juicer: A One-Stop Data Processing System for Large Language Models

著者: 著者：Daoyuan Chen, Yilun Huang, Zhijian Ma, Hesen Chen, Xuchen Pan 他

こちらもどうぞ