LLMは、考えがまとまる前にテキストを生成してしまうことがあるので、時折「生成を一時停止させる」ことでアウトプットの品質を向上させられるとの報告です。
プロンプトによっても実践できる工夫かもしれません。
カーネギーメロン大学とGoogleの研究者らによる発表です。
○ Sachin Goyal et al., “Think before you speak: Training Language Models With Pause Tokens”
LLMはトークン(テキスト)を次々と休みなく生成しますが、推論が完了する前に生成ステップが進んでしまうと、十分な品質の回答を出せないことがあります。
平たく言えば、「思考が済んでいないのに口から言葉が出てしまっている」状態です。
そこで研究者らは時折トークンの生成を「一時停止」させることで、モデルの推論能力を十分に表現させることを試みました。
■フレームワークの概要
① プレトレーニングとファインチューニングの両方のフェーズで「一時停止トークン」を導入する
② トークン数はタスクに応じて変更する
③ トークンの位置もタスクに応じて変更するのが望ましい
■一時停止トークンとは
① LLMが深く考える時間を得るための新種類トークン
② 各推論ステップでより多くの計算を行うためのもの
③
■実験結果
① 質問応答、長いコンテキストの回想あど9つのタスクで評価が行われた
② 9つのタスク中8つで、性能が向上した
③ ファインチューニングのみで実装すると効果は半減する
④ プレトレーニングと合わせて導入するのが重要
⑤ 一時停止トークンの数を変更すると性能に影響が出る
■考察
① 通常モデルよりも計算時間が長くなる可能性がある
②その代わり、より高度な推論や表現が可能になる
□もしプロンプトで実践するなら
本来、一時停止トークンの導入はアーキテクチャレベルの開発が必要です。
しかし、プロンプトを工夫することで効果を模倣できるかもしれません。
※ただし論文本文では明記されていません。
プロンプト例:
まずは、この問題の背景について考えてください。
次に、可能な解決策を挙げてください。
最後に、最も効果的な解決策を選んでその理由を説明してください。
上記のように、複雑な質問をより単純なサブクエリに分割することで、思考に費やす時間を捻出できる可能性があります。