次回の更新記事:テストから仕様を自動抽出、LLMの反例テストで精度が…(公開予定日:2026年04月20日)

OSS-LLMはChatGPTに匹敵?性能比較と課題

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「ChatGPTの1周年を記念して」と題して、オープンソースLLMがChatGPTにどこまで追いついているのかを体系的に調査した報告が行われました。

オープンソースLLMはChatGPTに触発されるような形で発展してきましたが、特定のタスクではChatGPTに匹敵する性能があるとのことです。

@ Hailin Chen et al., “ChatGPT’s One-year Anniversary: Are Open-Source Large Language Models Catching up?”

論文によると、オープンソースのLLMは一般的にChatGPTに対して遅れをとっていると認識されています。
しかし、ChatGPTをはじめとした優秀なクローズドLLMの技術は非公開であり、比較に関する詳細は不明です。

そこで研究者らは、オープンソース/クローズドLLMを改めて比較して論文にまとめました。以下は内容の抜粋です。

■調査対象となったオープンソースLLM
Llama-2(およびMentalLlama)
Palm
Vicuna
Falcon
Wizard
Lemur
など

■進歩のスピード
① クローズドLLMは定期的に新しいデータで再トレーニングされている
② オープンソースLLMはほぼ毎週リリースされている
③ 比較するとクローズドLLMよりもオープンソースLLMの進歩がより急速である

■オープンソースLLMが現時点で優れているタスクの例
① コーディングへのフィードバック(Lemur-70B)
② ツールの使用(ToolLLama)
③ APIコールの記述(Gorilla)
④ 論理的推論(WizardCoderとWizardMath)

■オープンソースLLMの今後の課題
① データ汚染の解消
② 事前トレーニングコーパスの透明性

なお、安全性の観点から見ると現時点ではGPT-3.5-turboとGPT-4はトップと評価されています。

📄 参照論文

論文情報と関連研究

こちらもどうぞ