大規模言語モデル(LLM)のこれまでとこれから④ -ベンチマーク別の優秀なモデルと将来展望編-

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

最終更新日:2024/02/19

本記事では、LLM研究全体の背景と現状、そして将来展望を網羅的に整理する調査論文をもとに、LLMの基礎を振り返ります。ここまで、代表的なモデル、モデル構築、使用法・拡張法、データセットについて深掘りしてきました。

第1回:大規模言語モデル(LLM)のこれまでとこれから① -代表的なモデル編-
第2回:大規模言語モデル(LLM)のこれまでとこれから② -モデル構築編-
第3回:大規模言語モデル(LLM)のこれまでとこれから③ -使用法・拡張法、データセット編-

今回は、本シリーズの最終章として、ベンチマーク別の優秀なモデルと将来展望について紹介します。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:Large Language Models: A Survey
  • 著者:Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao
  • 所属:論文には所属機関が示されていないため各機関から有志の研究グループが結成されたことが推測されます。
  • URL:https://doi.org/10.48550/arXiv.2402.06196

前回のおさらい

前回は、以下の項目に沿ってLLMの使用法・拡張法、データセットに触れました。

  • LLMの不足
  • LLMのプロンプトエンジニアリング
    • 思考の連鎖(CoT)、思考の木(ToT)、自動プロンプトエンジニアリング(APE)など
  • 外部知識を通じてLLMを拡張する手法RAG
  • 外部ツールの使用
  • LLMエージェント
  • 基本タスクのデータセット
  • 指示に従うためのデータセット
  • 外部知識/ツールを使用した拡張のためのデータセット

本記事では、さまざまなベンチマークごとの優秀なモデルと、将来展望にフォーカスします。

主要なLLMの各ベンチマークにおける性能

LLMを評価する代表的な評価指標と、データセットやベンチマークごとの各種LLMの性能を紹介します。

LLMを評価するための代表的メトリクス

選択肢から答えを選ぶタスク(センチメント分析など)

分類問題と見なすことができ、分類問題用の評価指標(Accuracy、Precision、Recall、F1など)が使えます。LLMが出力した回答が選択肢の中にある場合はTrue、そうでない場合はFalseとして評価されます。

自由形式のテキスト生成タスク

分類問題の指標が当てはまらないため、評価の目的に応じたメトリクスが必要です。例えば、コード生成なら、テストスイートに合格することは必須ですが、異なるコードを出力できるか、正解を選択する確率はどうかなども気になります。こういったケースでは Pass@k(問題に対して複数のコード解答を生成し、機能テストにより正誤を判定)が有効です。

Exact match (EM)

(事前に定義された)正解文との完全一致に重点を置く指標です。トークンごとの比較で完全に一致すると正解と数えます。場合によってはAccuracyと同じ結果を示します。

Human equivalence score (HEQ)

F1スコアの代替案とされています。HEQ-Qは個々の質問の精度で、モデルのF1スコアが人間の平均F1スコアを上回れば正解と判定。HEQ-Dは対話全体の精度であり、対話内の全ての質問がHEQ基準を満たせば正確と見なされます。

機械翻訳など生成タスクの評価

RougeやBLEUなどの指標があります。正解文(翻訳例)と、生成モデル(この場合LLM)の出力文がある場合に有効で、正解との類似度を計算します。N-Gramを元にした計算が使用されますが、BERT-Scoreといった別モデルを使って判定するものもあり、精度の問題を含んでいます。現時点では、純粋な生成テキストの評価は非常に難しく、完全に適合する指標は見つかっていません。既存の指標は単純なN-Gramなどの特徴のみを見るタイプか、あるいは精度の低い別モデルを使うタイプとなっています。

※N-Gramは、文中で使われる単語や文字のグループのことです。たとえば、「猫は可愛い」の文で、単語を2つずつグループにすると、「猫は」と「は可愛い」がN-Gramになります。「N」の数字が大きいほど、多くの単語を一緒に見ることになります。

LLMの生成型評価指標について

生成型評価指標は、LLMの解答文を別のLLMで評価する手法です。汎用的ですが、タスクによってはうまく評価できるとは限りません。また、この方法はプロンプト(LLMへの指示文)に大きく依存するため、精度に課題があります。生成型評価をうまく取り入れている手法の例として RAGAS が挙げられます。

LLMのベンチマークとリーダーボード

「どのLLMが優れているか」という難問に対処するため、様々なベンチマーク/リーダーボードが提案されています。しかし、単純な優劣はつけられません。LLMの比較においては、以下のような視点で分類されることがあります。

  • タスクの種類、使用するデータセット: どのようなタスク(例えば、テキスト生成、翻訳、質問応答など)、どのデータセットを使用するか
  • パラメータ数: 大幅にパラメータ数の異なるLLMを単純比較するのはあまり意義がない場合もあるため、小(10億以下)、中(10億~100億)、大(100億~1000億)、超大(1000億超)など
  • 主な用途: 基礎モデル、指示モデル(意図に合うように指示チューニング)、チャットモデル(会話に沿うようチューニング)の3種類
  • オリジナルモデルとチューニング済みモデル: ファインチューニング済みかそうでないか
  • モデルの公開状況: 重み(パラメータ)が公開されているものは「公開モデル」、それ以外は「非公開」とする





様々なタスクにおけるLLMの性能

常識的推論

HellaSwagなどのデータセットでモデルが世界についての事前知識を使って推論する能力を評価します。下記の表から、非公開モデルだけでなく公開モデルでも良い結果が出せることがわかります。なおGPT-4がHellaSwagで、davinci-003がOBQAで最高の結果を出しています。ただし、OBQAについては全てのモデルが評価されているわけではない点に注意が必要です。

世界知識

Wikifactなどのデータセットで評価することが多く、一般常識に関する質問が出題されます。結果を下記の表に示します。

コーディング

特定の用途では、コード生成能力が求められます。各モデルの性能を下記表に示します。

算数的推論

GSM8Kなど、小学校レベルの算数問題を含むデータセットで評価されます。結果を表に示します。

幻覚の検出

ハルシネーション検出能力の評価にはHaluEvalなどのデータセットが使用されます。結果を表に示します。

なお、LLMが生成したコードや文章がどれほど「幻覚」を含んでいるかを測るのは、非常に難しい問題です。

また、全てのモデルが全てのデータセットで評価されているわけではありません。そのため、表によってモデル数が異なります。

課題と今後の展望

これまでの章で見てきたように、大規模言語モデルは過去1〜2年で目覚ましい成果を上げています。そして依然として活発な研究分野であり、革新のペースは速まる一方です。しかしまだ多くの課題が残されています。

これまでの知見に基づいて、いくつかの課題と主要な研究領域について簡単に説明します。

(1)より小さく、より効率的な言語モデル

当初は「大きさこそが正義」という考え方が主流でした。実際、GPT-4のような大規模モデルは、ベンチマークにおいてより高い精度と性能を示しています。しかし、大規模なモデルはコストがかかり、非効率的とも言えます。

このような状況から、最近では汎用性を必要としない場合のコスト効率的な代替手段として、下流タスクに特化した小規模言語モデルの開発がトレンドの一つとなっています。マイクロソフトの Phi-1、Phi-1.5、Phi-2などはその代表例です。

今後、より小さく、より効率的なモデルを訓練する方法に関する研究が数多く行われることが予想されます。大規模モデルから小規模モデルを構築するためには、パラメーター効率的な微調整、教師/学生、その他の知識蒸留などの手法が引き続き用いられる可能性が考えられます。

(2)「ポスト・アテンション」アーキテクチャ

トランスフォーマーは、現在のLLMフレームワークにおいては不可欠な存在です。しかし、このアーキテクチャがいつまで主流であり続けるのかはわかりません。2012年のAlexNet以降、LSTM、GRU、seq2seqなど、多くのアーキテクチャが流行しては廃れてきましたが、トランスフォーマーは登場以来、主流のアプローチとなっています。その中核をなしているのが、アテンションの仕組みです。

最近では、「ポスト・アテンション」と呼ばれる代替アプローチが有望視されています。その中でも特に注目されているのが「状態空間モデル(SSM)」です。最近のモデルとしては、Mamba、Hyena、Striped Hyenaなどがあります。いずれも性能と効率性の面で優れており、従来のアテンションベースのアーキテクチャにおける重要な課題、つまり「長い文脈を扱えない」という点を解消しています。

長文のプロンプトにうまく応答するには、文脈が重要です。例えば、「おすすめの映画を紹介して」という問いかけにおいては、「自分」についての情報、どんな映画が存在し、どれをまだ見ていないかなどの文脈が必要です。また、文脈の長さは「RAG」においても重要となります。コンテキストが長ければ長いほど、多くのトークンを詰め込むことができ、モデルが利用できる情報が多ければ多いほど、より良い応答ができます。

しかし、文脈が長すぎると、モデルはすべての情報を記憶し処理するのが難しくなることがあります。そのため長い文脈を処理できる新しいメカニズムや、全般的に効率的なアーキテクチャの研究が期待されます。アテンション・メカニズムの代替案だけではなく、トランスフォーマー構造全体の見直し自体が必要な可能性もあります。

また、アテンションに対応したアーキテクチャの中でも、より良いLLMを作るために注目されているものがあります。その代表例が「Mixture of Experts (MoE)」(専門家混合)です。MoEは大規模言語モデル以前から研究されてきた技術で、LLMにおいては、推論時に一部の専門家ユニットがオフになりトレーニング・運用時の負荷を軽減します。たとえば、GLaMモデルは1.2兆個のパラメータを持ちますが、推論時には64個のエキスパートのうち2個のみが使用されます。

MoEは現在、「最先端LLM」の重要な要素になっています。GPT-4自体もMoEアーキテクチャをベースとすると噂され、MoE版LLMであるMixtralをはじめ、最高性能LLMのいくつかで活用されています。なおMoEはアテンションの有無に関わらず、あらゆるアーキテクチャのコンポーネントとして使うことが可能です。

ちなみに最近発表されたGoogleのマルチモーダルLLM『Gemini1.5』もMoEを採用していることが明らかにされています。

(3)マルチモーダルモデル

この先のLLMは、テキスト、画像、動画、音声など、様々な種類のデータを統合的に扱う「マルチモーダル」になると期待されています。さまざまなモダリティを一気に処理できることにより、質問応答、コンテンツ生成、クリエイティブ、医療、ロボット工学など、多様な分野での応用が期待できます。すでにLLAVA 、GPT-4、GeminiなどのマルチモーダルなLLMが登場していますが、この傾向は今後も続くでしょう。

(4)利用、拡張技術

ハルシネーションなどの欠点は、高度なプロンプトやツール、RAGなどによって対処できるため、この部分の研究はさらに続いていくでしょう。さらに、以下のような応用も盛んになりそうです。

パーソナライゼーション

LLMを利用し、ユーザーの嗜好や関心をよりよく理解し、カスタマーサービスやコンテンツレコメンドなど個別対応を強化する。

LLMエージェント

外部ツールにアクセスでき、意思決定能力を持つLLMシステムの開発はエキサイティングであると同時に、課題も大きい分野です。一部の専門家は、これが汎用人工知能(AGI)につながる可能性があると考えています。

(5)安全性と倫理的AI

LLMの安全性や倫理的問題も重要です。

まず、悪意ある攻撃などからLLM守るための研究が必要です。実世界でLLMの利用が広がる中で、人々を操作したり、誤った情報を広めることに利用されないようにすることが重要になります。さらに機密情報を責任をもって取り扱う能力などもニーズが高まっています。

LLM開発・導入のためのオープンソースツールキット

最後に、最もよく利用されているフレームワーク/ライブラリを、カテゴリ別に簡単に紹介します。

トレーニング / 推論フレームワーク

DeepSpeed

分散学習・推論を容易にする最適化ライブラリです。超大規模モデル開発に利用されています。

Transformers

Hugging Face提供のライブラリ。テキスト、画像、音声など、様々なデータ形式向けの事前学習済みモデルが多数用意されています。

Megatron-LM

NVIDIA開発の大規模なトランスフォーマーモデル。効率的な並列学習をサポートします。

BMTrain

分散学習をシンプルなコードで実現します。数百億パラメータ規模の超大規模モデルでも効率的に学習可能です。

GPT-NeoX

DeepSpeedと類似の機能を持っていますが、使いやすさとパフォーマンスの向上がポイントです。

LoRA

LLMを少数の訓練パラメータでタスクに特化させます。ストレージ要件の削減、タスク切り替えの効率化が可能です。

ColossalAI

分散学習のコード記述を簡素化します。データ並列、パイプライン並列、Zero Redundancy Optimizer (ZeRO)などの分散学習方式に対応しています。

LLM導入ツール

FastChat

大規模言語モデルベースのチャットボットを学習、運用、評価するためのオープンソースプラットフォームです。

Skypilot

LLMをあらゆるクラウドで実行するフレームワーク。コスト削減、GPUの可用性確保などを支援します。

vLLM

LLMの推論とサービングのためのライブラリ。Hugging Faceの多くのモデルをシームレスにサポートします。

text-generation-inference

LLMを配備・提供するためのツールキット。よく使われるオープンソースLLMでのテキスト生成を高速化します。

LangChain

言語モデルを使ったアプリケーション開発フレームワーク。コンテキスト対応、推論処理など高度な言語処理アプリケーションの構築を支援します。

OpenLLM

オープンソースLLMの実運用を容易にするプラットフォーム。オープンソースLLMで推論を実行でき、クラウドやオンプレミスでの展開が可能です。

Embedchain

AIアプリの構築・導入を容易にするオープンソースRAGフレームワーク。非構造化データ管理、関連する埋め込みベクトルの作成とベクトルデータベースへの格納などを統合。

Autogen

複数エージェントによるLLMアプリケーション開発フレームワーク。エージェントはカスタマイズ可能で、会話形式でタスク解決を行います。

BabyAGI

タスク自動化を目的とした自律AI。OpenAI、Pinecone、LangChainなどの技術を活用します。

プロンプト作成ライブラリ

Guidance

正則表現による制約、制御構造(条件分岐、ループ)による処理と生成制御の柔軟な組み合わせが可能です。

PromptTools

LLMやプロンプトのテスト・評価を行うオープンソースツール群。

PromptBench

Pytorch ベースの大規模言語モデル評価用パッケージ。研究者が使いやすいAPIを提供します。

Promptfoo

LLM出力品質をテスト・評価するツール。定義済みのテストケースでプロンプトやモデルを体系的に検証します。

ベクトルデータベース

※ベクトルデータベースはRAGシステムで使用します。

Faiss

Facebook AI Research開発の高次元ベクトル類似度検索ライブラリ。大規模データ向けの索引付け・クラスタリング手法を多数実装しています。

Milvus

類似度検索等を目的としたオープンソースのベクトルデータベース。導入環境によらない使い勝手を提供します。

Qdrant

ベクトル類似度検索エンジン。検索対象に付加データを持たせることもでき、高度なフィルタリングをサポートします。

Weaviate

GraphQLベースのオープンソース ベクトル検索エンジン。Weaviate自体はオープンソースですが、商用版ではさらなる機能やサポートを提供します。

その他

LlamaIndex、Pineconeなども開発者、研究者の間で広く使用されています。

ツールキットを選択する際は、プロジェクトの要件に応じて、使いやすさや規模、サポートされるアルゴリズムなどを考慮してみてください。

まとめ

本シリーズ記事では、ここ数年で開発されたLLMに関する調査結果をご紹介しました。

まず前回までは初期の事前学習言語モデル(BERTなど)の概要から、GPT、LLaMA、PaLMといったLLMファミリー、その他の代表的なLLMと、さらにLLMの構築・拡張・利用方法、データセット・ベンチマークについて紹介しました。

そして今回、代表的なモデルの性能を公開ベンチマークで比較し、課題と今後の研究方向について述べました。

必要に応じて各セクションを見直して、役立てていただけたら幸いです。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP