LLMに思考時間を与えるPause Token

2023.10.10

学習手法（ファインチューニング、RLHF、事前学習、instruction tuning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMは、考えがまとまる前にテキストを生成してしまうことがあるので、時折「生成を一時停止させる」ことでアウトプットの品質を向上させられるとの報告です。

プロンプトによっても実践できる工夫かもしれません。

カーネギーメロン大学とGoogleの研究者らによる発表です。
○ Sachin Goyal et al., “Think before you speak: Training Language Models With Pause Tokens”

LLMはトークン（テキスト）を次々と休みなく生成しますが、推論が完了する前に生成ステップが進んでしまうと、十分な品質の回答を出せないことがあります。
平たく言えば、「思考が済んでいないのに口から言葉が出てしまっている」状態です。

そこで研究者らは時折トークンの生成を「一時停止」させることで、モデルの推論能力を十分に表現させることを試みました。

■フレームワークの概要
① プレトレーニングとファインチューニングの両方のフェーズで「一時停止トークン」を導入する
② トークン数はタスクに応じて変更する
③ トークンの位置もタスクに応じて変更するのが望ましい

■一時停止トークンとは
① LLMが深く考える時間を得るための新種類トークン
② 各推論ステップでより多くの計算を行うためのもの
③ などの形で表現される

■実験結果
① 質問応答、長いコンテキストの回想あど9つのタスクで評価が行われた
② 9つのタスク中8つで、性能が向上した
③ ファインチューニングのみで実装すると効果は半減する
④ プレトレーニングと合わせて導入するのが重要
⑤ 一時停止トークンの数を変更すると性能に影響が出る

■考察
① 通常モデルよりも計算時間が長くなる可能性がある
②その代わり、より高度な推論や表現が可能になる

□もしプロンプトで実践するなら
本来、一時停止トークンの導入はアーキテクチャレベルの開発が必要です。
しかし、プロンプトを工夫することで効果を模倣できるかもしれません。
※ただし論文本文では明記されていません。
プロンプト例：
まずは、この問題の背景について考えてください。
次に、可能な解決策を挙げてください。
最後に、最も効果的な解決策を選んでその理由を説明してください。
上記のように、複雑な質問をより単純なサブクエリに分割することで、思考に費やす時間を捻出できる可能性があります。

📄 参照論文

Think before you speak: Training Language Models With Pause Tokens

著者: 著者：Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMに思考時間を与えるPause Token

📄 参照論文

こちらもどうぞ

🔒 「この製品が出たら買う？」消費者調査で人間の代わりにLLMを上手く使う手法

🔒 ChatDoctor: 医療分野特化の大規模言語モデル