小型の言語モデルを極めて大きいデータ量でトレーニングすると、類似モデルよりもシンプルに著しく性能が高くなったと報告されています。
実験では1.1Bパラメータの「TinyLlama」を約3兆トークンで訓練したところ、様々な常識推論タスクで優れたパフォーマンスを発揮したとのことです。
“TinyLlama: An Open-Source Small Language Model”より
※パラメータ数についての参考:
– GPT-3:175Bパラメータ
– Llama-2:7B〜70Bパラメータ
– TinyLlama:1.1Bパラメータ
■前提
パラメータ数が多いモデルの性能は高いと考えられている(単純に比例するものではないが、多いにこしたことはないと思われている)
■研究者らの仮説
小型モデルでも、十分なデータ量でトレーニングしたら高い性能が得られるのではないか
■実験
1. 3兆トークンでTinyLlamaを訓練した
(3エポック×1兆トークン)
2. 様々な常識推論タスクでテストした
3. 同規模パラメータのモデルと比較した
4. 平均スコアで最高の成績を達成した
■結論
シンプルに大量データでトレーニングするのは有効である可能性が高い
ただし、大規模モデルに匹敵する性能を示すほどになるか等、実用性や有効性についてはさらなる検証が待たれます。