外部メモリでLLM高速化・省メモリ化

2023.12.20

効率化・軽量化（量子化、推論高速化、モデル圧縮、蒸留）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Appleの研究者らは、LLMのパラメータをSSDなどの外部フラッシュメモリに保存し、接続したPCなどで読み込み使用する手法を開発しました。

CPUで4-5倍、GPUで20-25倍の推論速度向上が実現し、さらにPCデバイスの記憶容量がモデルサイズの半分でも、LLMを高効率に実行できたとのことです。

– “LLM in a Flash: Efficient Large Language Model Inference with Limited Memory”

■研究に至る背景
LLMは高性能だが、計算負荷が重く、要求されるメモリーも高いため、デバイスを選ぶ

■今回開発された手法のポイント
① モデルパラメータを外部フラッシュメモリに格納
② 要求に応じてPCのDRAM（メモリ）に転送
③ データ転送量を減らし推論速度を向上

■テクニカルな点
① 計算済みのトークン活性化を再利用
② フラッシュメモリの連続データアクセスを活用

■実験
① Apple M1 MaxやNVIDIA GeForce RTX 4090を使用
② OPT 6.7BとFalcon 7Bモデルを実行
③ 推論速度とメモリ使用効率を検証

■結果
① CPUで4-5倍、GPUで20-25倍の推論速度向上を実現
② PCデバイスメモリ（DRAM）がモデルサイズの半分でも、LLMを高効率に実行

なお、DRAM（メモリ）内のデータ管理が効率的でないと、性能向上の効果が減少することに注意すべきと述べられています。

■論文情報

📎 論文を読む（arxiv.org）

こちらもどうぞ