1.1Bパラメータの小さなモデルを巨大データ(約3兆トークン)で訓練したモデル『TinyLlama』が、比較的優秀な性能を発揮

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

小型の言語モデルを極めて大きいデータ量でトレーニングすると、類似サイズのモデルよりもシンプルに著しく優れた性能になったことが明らかにされました。

研究者らは1.1Bパラメータの「TinyLlama」を約3兆トークンで訓練して様々なタスク(常識推論や問題解決)で実験した結果を報告しています

本記事では研究の詳細を見ていきます。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

背景

自然言語処理の分野では、パラメータ数が多いモデルが注目されています。たとえば、GPT-3は175B(1750億)パラメータ、Llama-2は7B(70億)から70B(700億)パラメータです。

一般的には、パラメータ数が多いほどモデルの性能が高いと考えられています。しかし、パラメータ数が多いモデルにはいくつかデメリットがあります。

例えば、トレーニングや推論において多くの計算リソース(時間とコスト)を消費します。また、実行時に多くのメモリを必要とするため、高性能なハードウェアを持つことが条件になってしまいます。
おまけに、パラメータ数に見合ったトレーニングデータが用意できない場合には過学習が発生する恐れもあると言われています。

上記の背景から、パラメータ数が少なくても高いパフォーマンスを発揮するモデルの研究が重要になってきています。

そこで今回、そのような研究の最先端として登場したのがTinyLlamaです。研究者らは、比較的小さなモデルでも、十分なデータ量でトレーニングすれば高い性能が得られるのではないかと仮説を立てました。

本記事の関連研究

TinyLlamaはいかにして作られたか

訓練用データの用意

TinyLlamaの訓練データは、

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP