Microsoftとチューリッヒ工科大の研究者により、LLMをスライス(行や列を削除)して軽くする効果的な手法が考案されています。
性能をほぼ維持したままサイズを小さくして、計算負荷を減らせるとのこと。
実験では最大30%のパラメータを削減しつつ性能の90%以上を保つことができたと報告されています。
“SliceGPT: Compress Large Language Models by Deleting Rows and Columns”より
なお本研究は機械学習の国際会議ICLR2024に採択されています。
■研究背景
– 高性能LLMはサイズも大きく多くのメモリを要する
– 従来の圧縮手法は十分でないと考えられている
(スパース化)
■提案手法
1. 主成分分析を用いて重要な情報を抽出
2. 重要でない情報を取り除くために行や列を削減
→より少ない計算リソースで動作できるようにする
■実験と結果
1. OPT, LLAMA-2, Phi-2を実験対象モデルに設定
2. HuggingFace TransformersとPyTorchで実装
3. いくつかのスライスレベルを分けて実験
4. 最大30%のモデルパラメータ削減が実現した
5. Llama 2とPhi-2モデルは90%以上の性能を維持
なお、削減効果や性能の維持率はモデルやパラメータに依存して異なるため、その点には注意が必要とのことです。