Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発

Microsoft Researchのチームによって発表された『Orca2』は、OpenAIのGPT-4などの大規模言語モデル（LLM）に匹敵し、時には凌駕する性能を発揮するとのことです。

『Orca2』のような小規模モデルの登場により、計算リソースが限られた環境や、リアルタイム処理が求められるアプリケーションにおいても、高性能な言語モデルが利用できるようになるかもしれません。
なお、研究者らにより、将来的には大規模モデルと相互補完的に利用されるようになるべきと述べられています。

本記事では、『Orca2』の背景、特徴、技術、利用シーン、GPT-4との比較、展望、そして注意点について見ていきます。

参照論文情報

タイトル：Orca 2: Teaching Small Language Models How to Reason

著者：Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah

所属：Microsoft Research

URL：https://doi.org/10.48550/arXiv.2311.11045

GitHub：http://aka.ms/orca-lm

背景

大規模言語モデル（LLM）は、コーディング、ウェブ検索、チャットボット、カスタマーサービス、コンテンツ作成などで重要な役割を果たしつつあります。しかし、大きなサイズと沢山の計算資源が必要であり、課題感があります。GPT-4やPaLM-2のようなLLMは、これまでに見られなかった推論やゼロショットの問題解決など、驚異的な能力を示していますが、数十億あるいは数百億のパラメータに支えられています。

一方で、小規模なモデルは大規模なモデルと同等の性能を達成するのが難しいというのが従来の一般的な見方です。複雑な推論や多段階の問題解決などを必要とするタスクでは、その性能の差は顕著でした。模倣学習は一定の効果を発揮してきましたが、小規模モデルが持つ潜在的な可能性を十分に発揮できないと考えられてきました。

上記の背景を踏まえ、Microsoft Researchの研究者たちはこれまでとは異なるアプローチで小規模モデルを訓練し、大規模モデルに匹敵する性能に進化させようと考えました。そして小規模モデルが異なるタスクに対して異なる解決戦略を採用する方法を模索し、今回、『Orca2』という新しい言語モデルを開発しました。