LLMをスライス圧縮するSliceGPT

2024.01.30

効率化・軽量化（量子化、推論高速化、モデル圧縮、蒸留）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Microsoftとチューリッヒ工科大の研究者により、LLMをスライス（行や列を削除）して軽くする効果的な手法が考案されています。

性能をほぼ維持したままサイズを小さくして、計算負荷を減らせるとのこと。

実験では最大30%のパラメータを削減しつつ性能の90%以上を保つことができたと報告されています。

“SliceGPT: Compress Large Language Models by Deleting Rows and Columns”より

なお本研究は機械学習の国際会議ICLR2024に採択されています。

■研究背景
– 高性能LLMはサイズも大きく多くのメモリを要する
– 従来の圧縮手法は十分でないと考えられている
（スパース化）

■提案手法
1. 主成分分析を用いて重要な情報を抽出
2. 重要でない情報を取り除くために行や列を削減
→より少ない計算リソースで動作できるようにする

■実験と結果
1. OPT, LLAMA-2, Phi-2を実験対象モデルに設定
2. HuggingFace TransformersとPyTorchで実装
3. いくつかのスライスレベルを分けて実験
4. 最大30%のモデルパラメータ削減が実現した
5. Llama 2とPhi-2モデルは90%以上の性能を維持

なお、削減効果や性能の維持率はモデルやパラメータに依存して異なるため、その点には注意が必要とのことです。

📄 参照論文

参照情報：

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMをスライス圧縮するSliceGPT

📄 参照論文

こちらもどうぞ

🔒 Googleが開発した「LLMに長文を高精度で読解させる方法論」と実行プロンプト

🔒 外部からの攻撃で一度でも欺瞞を学んだLLMは現在の技術では完全回復が難しい