1.1Bパラメータの小さなモデルを巨大データ(約3兆トークン)で訓練したモデル『TinyLlama』が、比較的優秀な性能を発揮

   

小型の言語モデルを極めて大きいデータ量でトレーニングすると、類似サイズのモデルよりもシンプルに著しく優れた性能になったことが明らかにされました。

研究者らは1.1Bパラメータの「TinyLlama」を約3兆トークンで訓練して様々なタスク(常識推論や問題解決)で実験した結果を報告しています

本記事では研究の詳細を見ていきます。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。



参照論文情報

背景

自然言語処理の分野では、パラメータ数が多いモデルが注目されています。たとえば、GPT-3は175B(1750億)パラメータ、Llama-2は7B(70億)から70B(700億)パラメータです。

一般的には、パラメータ数が多いほどモデルの性能が高いと考えられています。しかし、パラメータ数が多いモデルにはいくつかデメリットがあります。

例えば、トレーニングや推論において多くの計算リソース(時間とコスト)を消費します。また、実行時に多くのメモリを必要とするため、高性能なハードウェアを持つことが条件になってしまいます。
おまけに、パラメータ数に見合ったトレーニングデータが用意できない場合には過学習が発生する恐れもあると言われています。

上記の背景から、パラメータ数が少なくても高いパフォーマンスを発揮するモデルの研究が重要になってきています。

そこで今回、そのような研究の最先端として登場したのがTinyLlamaです。研究者らは、比較的小さなモデルでも、十分なデータ量でトレーニングすれば高い性能が得られるのではないかと仮説を立てました。

本記事の関連研究

TinyLlamaはいかにして作られたか

訓練用データの用意

TinyLlamaの訓練データは、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP