次回の更新記事:LLMに「もっと読みやすくして」とリファクタリングを…(公開予定日:2026年03月02日)

LLMをスライス圧縮するSliceGPT

効率化・軽量化(量子化、推論高速化、モデル圧縮、蒸留)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Microsoftとチューリッヒ工科大の研究者により、LLMをスライス(行や列を削除)して軽くする効果的な手法が考案されています。

性能をほぼ維持したままサイズを小さくして、計算負荷を減らせるとのこと。

実験では最大30%のパラメータを削減しつつ性能の90%以上を保つことができたと報告されています。

“SliceGPT: Compress Large Language Models by Deleting Rows and Columns”より

なお本研究は機械学習の国際会議ICLR2024に採択されています。

■研究背景
– 高性能LLMはサイズも大きく多くのメモリを要する
– 従来の圧縮手法は十分でないと考えられている
(スパース化)

■提案手法
1. 主成分分析を用いて重要な情報を抽出
2. 重要でない情報を取り除くために行や列を削減
→より少ない計算リソースで動作できるようにする

■実験と結果
1. OPT, LLAMA-2, Phi-2を実験対象モデルに設定
2. HuggingFace TransformersとPyTorchで実装
3. いくつかのスライスレベルを分けて実験
4. 最大30%のモデルパラメータ削減が実現した
5. Llama 2とPhi-2モデルは90%以上の性能を維持

なお、削減効果や性能の維持率はモデルやパラメータに依存して異なるため、その点には注意が必要とのことです。

📄 参照論文

参照情報:

関連記事