Llama 3.1シリーズ、8ビット量子化で半分以下のサイズでも性能をほぼ完全維持、実験で確認

本記事では、LLMの推論コストを削減する「量子化」技術に関する最新の研究成果を紹介します。量子化とは、モデルの重みやアクティベーションのビット幅を削減することで、メモリと計算コストを大幅に削減する手法です。

量子化では精度低下が懸念されていますが、適切な手法を選択することで精度をほぼ維持したまま大幅なコスト削減が可能であることが今回示唆されています。

参照論文情報

タイトル：”Give Me BF16 or Give Me Death”? Accuracy-Performance Trade-Offs in LLM Quantization

著者：Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh

所属：Neural Magic, Institute of Science and Technology Austria

背景

LLMの実行は通常、計算コストが大きくかかってしまう問題があります。この問題を解決するため、これまで研究者たちはさまざまな方法を検討してきました。代表的なものが量子化（モデルの重みやアクティベーションのビット数を減らすこと）で、モデルを使用する際のメモリと計算コストを減らす一般的な手法として注目されています。

量子化で最も重要なのは、圧縮によって速度や使用メモリが改善される代わりにモデルの精度がどれほど落ちてしまうかのバランスをとることです。これまで量子化に関する研究は多く行われてきましたが、モデルをどの程度圧縮すればどのくらいの性能が得られるのか、実用的な指針を示した研究はあまりありませんでした。これは現在最も使用されているオープンソースLLMのひとつであるLlama-3.1モデルにおいても浮き彫りになりました。量子化によって精度が大きく下がるのではと心配されていましたが、実際にユーザーがテストしてみるとほとんど性能が落ちていないことが報告され始めたのです。

こうした背景から、今回研究者らは量子化と精度・パフォーマンスのバランスをに関する実用的な指針を示すことを目指してLlama 3.1モデルにさまざまな量子化をほどこして実験を行いました。

以下ではまず量子化とは何かといった内容をおさらいし、今回の実験内容と実験結果、そして得られた知見を紹介します。