LLMが利用しやすい形にデータを料理(❶前処理、❷変換、❸評価)してくれるフレームワーク『Data-Juicer』が登場しました。
アリババによる開発です。
○ Daoyuan Chen et al. Data-Juicer: A One-Stop Data Processing System for Large Language Models
■ポイント
✔️特定のデータでLLMを強化する流れが大きくなっている
✔️既存データセットには「LLMがそのまま使えるケース」と「加工が必要なケース」がある
✔️「加工が必要なケース」に対応するLLM特化の一元的なデータ処理システム『Data-Juicer』が登場した
■『Data-Juicer』に含まれるもの
① 50以上の多機能なオペレータ※1
② 複数のプラグイン可能なツール※2
※1 オペレータ
フォーマッタ、マッパー、フィルター、重複除去など、50以上の組み込みプログラム
※2 プラグインツール
分析器、ビジュアライザ、品質分類器、参照LLM(ツールとしてのLLM)など
■『Data-Juicer』の特徴
① 初心者から経験豊富なユーザーまで、多様なバックグラウンドの方に対応
② 高いデータ処理効率とスケーラビリティ
■実験結果
① 16のLLMベンチマークで平均7.45%の相対的なスコア向上
② 単一マシンの処理時間を最大88.7%削減
③ メモリとCPU使用量をそれぞれ77.1%、73.1%削減
④ 分散コンピューティングを利用した場合、処理速度は7.91倍に向上
なお、カスタムオペレータを簡単に追加でき、拡張性が高いとのことです。
📄 参照論文
○ Data-Juicer: A One-Stop Data Processing System for Large Language Models