LLMを軽くする効果的な剪定手法『SliceGPT』

大規模言語モデル（LLM）のサイズを効率的に小さくする技術『SLICEGPT』が発表されました。

この技術は、モデルの重要でない部分を剪定（切り取り）することで、計算資源とメモリの使用量を減らしながらも、高い性能を維持するものです。

実験では巨大なモデルを最大30%圧縮でき、生成タスクや様々なダウンストリームタスクにおいて、元のモデルの性能の90%以上を維持することが可能だと示されました。

参照論文情報

論文タイトル：SliceGPT: Compress Large Language Models by Deleting Rows and Columns

URL：https://arxiv.org/abs/2401.15024

機関：ETH Zurich, Microsoft Research, Microsoft

著者：Saleh Ashkboos, Maximilian L. Croci, Marcelo Gennari do Nascimento, Torsten Hoefler, James Hensman

コード：https://github.com/microsoft/TransformerCompression

研究背景

LLMは、文章生成や翻訳など様々なタスクで高い能力を発揮しますが、サイズが巨大であるため、多くの計算資源とメモリを必要とするのが課題です。

そこで「基盤モデル」という考え方が注目されています。学習済みのLLMをベースに、それぞれのタスクに特化したモデルを構築することで、開発や計算のコストを削減する方法です。しかし、それでもまだ高額な費用がかかってしまうと言われています。複数の高性能コンピュータで何度もモデルを動かす度にコストは膨れ上がります。

そうした中、LLMの計算量を削減する「モデル圧縮」と呼ばれる技術が開発されています。モデル圧縮は、LLMのサイズを小さくすることで、必要な計算資源やメモリを減らすことができる技術です。