分散型LLM推論ネットワーク「PETALS」爆誕

2023.12.14

効率化・軽量化（量子化、推論高速化、モデル圧縮、蒸留）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「みんなで動かすLLM」といったようなアイデアが、多数の研究機関によって共同で具体化されました。
さまざまなデバイスをつなぐ分散型の推論ネットワークが提案され、有効性が示されました。

テストの結果、特定の条件下で従来の10倍高速だったとのことです。

– “Distributed Inference and Fine-tuning of Large Language Models Over The Internet”

LLMはときに50Bを超えるようなパラメーターのものもあり、高性能なハードウェアがないと使えません。
従来の処理方法はもはや効率が悪いと考えられています。

そこで研究者らは、分散型の推論ネットワーク『PETALS』を開発しました。
平たく言うと「みんなで動かすLLM」といったようなアイデアです。

■『PETALS』のポイント
① デバイス群をネットでつなぎLLMの推論やファインチューニングを実行
② デバイスが故障したりネットが不安定でも正確に推論
③ ボランティアの力も借りて継続的にシステムを運用

■分散型推論アルゴリズム
① 世界中に分散した不安定なデバイス同士を接続
② トランスフォーマーブロックの計算はサーバーに委ねる
③ 故障時は復元するためのキャッシュを保持

■実験と結果
① Llama 2 (70B) と BLOOM (176B) を用いて実験
② ネット遅延とサーバー故障をテスト
③ 従来のローカルオフロード手法よりも、自己回帰生成を10倍以上高速に実行

本システムは、LLMへのアクセシビリティを格段に向上する潜在的な価値があると主張されています。

ただし、LLMを媒介して伝達するデータのプライバシーやセキュリティといった問題には注意が必要です。

研究情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ