大容量のデータセットを小さく圧縮する手法をバイトダンスとシンガポール国立大の研究者らが開発しました。
ImageNetを40%縮小するのに388倍高速なパフォーマンスを達成しています。
○ Daquan Zhou et al. Dataset Quantization
LLMなど任意のモデル訓練を低コストで行えるようにするための手法であり、従来の蒸留における、
①データ効率
②時間効率
③多様性
の限界を超えることを目標に開発されました。
■データ効率と時間効率
実験ではImageNetデータを60%のデータ保持比率で量子化するのに72 GPU時間しかかかりませんでした。
これまでの最先端手法よりも388倍高速です。
■多様性
データ保持比率を下げていっても「多様なサンプルを選択」し、コアセット選択よりもモデルの性能を最大限維持するような工夫が施されています。
さらに、圧縮されたデータセットは未見のモデルを訓練するためにも使用することができると主張されています。