データセット量子化で学習効率388倍向上

2023.08.24

効率化・軽量化（量子化、推論高速化、モデル圧縮、蒸留）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

大容量のデータセットを小さく圧縮する手法をバイトダンスとシンガポール国立大の研究者らが開発しました。
ImageNetを40%縮小するのに388倍高速なパフォーマンスを達成しています。

○ Daquan Zhou et al. Dataset Quantization

LLMなど任意のモデル訓練を低コストで行えるようにするための手法であり、従来の蒸留における、
①データ効率
②時間効率
③多様性
の限界を超えることを目標に開発されました。

■データ効率と時間効率
実験ではImageNetデータを60%のデータ保持比率で量子化するのに72 GPU時間しかかかりませんでした。
これまでの最先端手法よりも388倍高速です。

■多様性
データ保持比率を下げていっても「多様なサンプルを選択」し、コアセット選択よりもモデルの性能を最大限維持するような工夫が施されています。

さらに、圧縮されたデータセットは未見のモデルを訓練するためにも使用することができると主張されています。

論文：https://t.co/VnpBNZ7LZK

📎 論文を読む（arxiv.org）

こちらもどうぞ