LLM下流タスク性能はFTデータ量に依存

2024.02.08

学習手法（ファインチューニング、RLHF、事前学習、instruction tuning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMにおけるスケーリング則における新しい洞察が、Googleとスタンフォード大学の研究者らによって発表されています。

基本性能には事前学習データ量が重要な一方で、下流（具体的なタスク）にはファインチューニングのデータ量が重要である可能性が示唆されました。

※スケーリング則：訓練データ量と性能の相関関係

“Scaling Laws for Downstream Task Performance of Large Language Models”より

■研究の背景
– モデルの基本性能に事前学習データ量が重要なのはこれまでで分かってきたこと
– 実用においては下流タスクの性能向上に対する知見が必要とされている
– 下流タスク用にファインチューニングされることが多いため、両者の関係を調べたい

■実験内容
– T5-3Bモデルを使用
– 未監督の事前学習データ量を変化させる
– 下流タスク（翻訳）に応じたファインチューニングデータ量を変化させる

■実験結果
– ファインチューニングのデータ量が少ないうちは、事前学習データとの整合性（言語の一致）が大きく影響する
– ファインチューニングのデータ量が十分に大きくなると、下流タスク性能において、事前学習データとの整合性や事前学習データの大きさはほとんど重要でなくなる

ただしファインチューニング用のデータと事前学習データの整合性が低くなると一部の指標ではモデル性能の不安定化も見られているとのことです。
そのため、下流タスクにおいては複数の指標を使用することが提案されています。

論文タイトル：Scaling Laws for Downstream Task Performance of Large Language Models

著者: 機関：Stanford University, Google Research

こちらもどうぞ