本記事では、LLMの温度設定が6つの能力に及ぼす影響についての評価結果を紹介します。
LLMを業務に取り入れる場面が増えるなか、出力の多様性や安定性を調整する「温度」という設定が見直されています。温度の効果を能力ごとに検証した例は多くなく、実務上どのように設定すべきか迷うこともあります。
今回紹介する事例では、小型から大型までの複数のモデルを使い、因果推論や創造性などの能力ごとに最適な温度を探っています。

背景
LLMには、出力の傾向を調整するいくつかの設定項目があります。たとえば、どんな言葉をどれくらいの範囲から選ぶのか、あるいは同じ言葉を何度も繰り返さないようにするかなど、ちょっとした数値の違いが出力の雰囲気を大きく左右します。
その中でも特に注目されるのが「温度(Temperature)」と呼ばれるパラメータです。生成する文の「揺らぎ具合」を調整するもので、数値を高くすると出力がより多様になり、低くすると確実性が高く、安定した応答になりやすくなります。もともと物理の分野で提唱された考え方が元になっています。
ChatGPTやClaudeのWebベースのチャット画面では温度の設定を行うメニューはありませんが、Google AI StudioやAWSなど開発者向けのサービスやAPIでLLMを使用する際には指定します。つまり、LLMを「もっと自分なりに活用しよう」と考える際に皆が関係するものになります。
この温度の調整が具体的にモデルのどんな能力にどう影響するかについては、これまで体系的な検証があまり行われてきませんでした。一般には、創造的な作業には高めの温度が合うと言われ、論理的な問題には低めの温度が好ましいとされています。しかし、両方の能力が必要な複雑な問題では、こうした効果が互いに打ち消し合い、温度をどう設定すべきか判断が難しくなる場面も見られています。
そこで、モデルの能力ごとに温度がどのように働くのかを、より明確に測定しようという試みが始まっています。以下で詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


PAGE TOP