最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

1.1Bパラメータの小さなモデルを巨大データ(約3兆トークン)で訓練したモデル『TinyLlama』が、比較的優秀な性能を発揮

2024.01.09
深堀り解説

小型の言語モデルを極めて大きいデータ量でトレーニングすると、類似サイズのモデルよりもシンプルに著しく優れた性能になったことが明らかにされました。

研究者らは1.1Bパラメータの「TinyLlama」を約3兆トークンで訓練して様々なタスク(常識推論や問題解決)で実験した結果を報告しています

本記事では研究の詳細を見ていきます。

参照論文情報

背景

自然言語処理の分野では、パラメータ数が多いモデルが注目されています。たとえば、GPT-3は175B(1750億)パラメータ、Llama-2は7B(70億)から70B(700億)パラメータです。

一般的には、パラメータ数が多いほどモデルの性能が高いと考えられています。しかし、パラメータ数が多いモデルにはいくつかデメリットがあります。

例えば、トレーニングや推論において多くの計算リソース(時間とコスト)を消費します。また、実行時に多くのメモリを必要とするため、高性能なハードウェアを持つことが条件になってしまいます。
おまけに、パラメータ数に見合ったトレーニングデータが用意できない場合には過学習が発生する恐れもあると言われています。

上記の背景から、パラメータ数が少なくても高いパフォーマンスを発揮するモデルの研究が重要になってきています。

そこで今回、そのような研究の最先端として登場したのがTinyLlamaです。研究者らは、比較的小さなモデルでも、十分なデータ量でトレーニングすれば高い性能が得られるのではないかと仮説を立てました。

本記事の関連研究

TinyLlamaはいかにして作られたか

訓練用データの用意

TinyLlamaの訓練データは、

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事