OSS-LLMはChatGPTに匹敵？性能比較と課題

2023.11.30

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「ChatGPTの1周年を記念して」と題して、オープンソースLLMがChatGPTにどこまで追いついているのかを体系的に調査した報告が行われました。

オープンソースLLMはChatGPTに触発されるような形で発展してきましたが、特定のタスクではChatGPTに匹敵する性能があるとのことです。

@ Hailin Chen et al., “ChatGPT’s One-year Anniversary: Are Open-Source Large Language Models Catching up?”

論文によると、オープンソースのLLMは一般的にChatGPTに対して遅れをとっていると認識されています。
しかし、ChatGPTをはじめとした優秀なクローズドLLMの技術は非公開であり、比較に関する詳細は不明です。

そこで研究者らは、オープンソース／クローズドLLMを改めて比較して論文にまとめました。以下は内容の抜粋です。

■調査対象となったオープンソースLLM
Llama-2（およびMentalLlama）
Palm
Vicuna
Falcon
Wizard
Lemur
など

■進歩のスピード
① クローズドLLMは定期的に新しいデータで再トレーニングされている
② オープンソースLLMはほぼ毎週リリースされている
③ 比較するとクローズドLLMよりもオープンソースLLMの進歩がより急速である

■オープンソースLLMが現時点で優れているタスクの例
① コーディングへのフィードバック（Lemur-70B）
② ツールの使用（ToolLLama）
③ APIコールの記述（Gorilla）
④ 論理的推論（WizardCoderとWizardMath）

■オープンソースLLMの今後の課題
① データ汚染の解消
② 事前トレーニングコーパスの透明性

なお、安全性の観点から見ると現時点ではGPT-3.5-turboとGPT-4はトップと評価されています。

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ