小規模LLMのブレンドでGPT-3.5超え

2024.01.10

効率化・軽量化（量子化、推論高速化、モデル圧縮、蒸留）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

比較的小さな言語モデルでも、混ぜ合わせることで大きいモデルに匹敵する可能性が報告されています。

実験では13B・6B・6Bパラメータの混合モデル『Blend』が、GPT-3.5を上回る評価を達成したとのことです。

なお各小規模モデルの「強み」がブレンドされるとも述べられています。

“Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM”より

■本アプローチのメリット
1. 計算コストを抑えられる
2. 高い推論速度が出せる
3. 各モデルの「強み」を合わせられる

■実験内容
1. 3つの小規模モデルをブレンドした
2. GPT-3.5など既存モデルと比較した
2. 評価指標はユーザーの定着率と会話密度とした
（論文ではRetentionとEngagementで表記）

■実験結果
1. ブレンドモデルは定着率が顕著に高かった
2. 会話密度に関しても他モデルを凌駕した

今後は、モデルの会話能力をさらに高めるために、3つより多くのモデルを混ぜ合わせて実験していきたいと述べられています。

■参照情報

著者: Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

関連記事