本記事では、LLMの温度設定が6つの能力に及ぼす影響についての評価結果を紹介します。
LLMを業務に取り入れる場面が増えるなか、出力の多様性や安定性を調整する「温度」という設定が見直されています。温度の効果を能力ごとに検証した例は多くなく、実務上どのように設定すべきか迷うこともあります。
今回紹介する事例では、小型から大型までの複数のモデルを使い、因果推論や創造性などの能力ごとに最適な温度を探っています。

背景
LLMには、出力の傾向を調整するいくつかの設定項目があります。たとえば、どんな言葉をどれくらいの範囲から選ぶのか、あるいは同じ言葉を何度も繰り返さないようにするかなど、ちょっとした数値の違いが出力の雰囲気を大きく左右します。
その中でも特に注目されるのが「温度(Temperature)」と呼ばれるパラメータです。生成する文の「揺らぎ具合」を調整するもので、数値を高くすると出力がより多様になり、低くすると確実性が高く、安定した応答になりやすくなります。もともと物理の分野で提唱された考え方が元になっています。
ChatGPTやClaudeのWebベースのチャット画面では温度の設定を行うメニューはありませんが、Google AI StudioやAWSなど開発者向けのサービスやAPIでLLMを使用する際には指定します。つまり、LLMを「もっと自分なりに活用しよう」と考える際に皆が関係するものになります。
この温度の調整が具体的にモデルのどんな能力にどう影響するかについては、これまで体系的な検証があまり行われてきませんでした。一般には、創造的な作業には高めの温度が合うと言われ、論理的な問題には低めの温度が好ましいとされています。しかし、両方の能力が必要な複雑な問題では、こうした効果が互いに打ち消し合い、温度をどう設定すべきか判断が難しくなる場面も見られています。
そこで、モデルの能力ごとに温度がどのように働くのかを、より明確に測定しようという試みが始まっています。以下で詳しく紹介します。
温度の研究はどこまで進んでいるのか
出力の揺らぎを調整する「温度」、これまではその効果を体系的に検証した事例はあまり多くありません。多くの場合、温度をひとつに固定した状態で実験が行われており、温度の違いによる性能差を比較した調査は限られています。とくに、能力ごとに温度がどう作用するかを捉える取り組みはほとんどありません。
また、一般的には創造性には高い温度、論理的推論には低い温度が効果的とされます。そのため両方を必要とする複雑なタスクでは、その効果が相殺されてしまい、適切な温度設定が見えにくくなると考えられています。
ただし、部分的な知見は得られつつあります。たとえばコード生成では、タスクの難易度に応じて温度を調整することが有効だと判明したケースが報告されています。
とはいえ、現時点では「この場合にこの温度が最適」と言える明確な基準はなく、ユーザーは多くの場合、経験や勘に頼って温度を調整しています。「AIエージェントの構成」のような高度なテーマが頻繁に語られている今だからこそ、温度という基本的な設定の影響を正しく把握することが、より安定した運用の鍵になるかもしれません。
温度によって変化するモデルの6つの能力を測る
温度の影響を評価するため、研究チームは6つの基本的な能力をひとつずつ切り分けて検証しました。
それぞれに対応するデータセットを用意し、モデルへの問いかけも1回だけに限定しています。モデル本来の力を素直に観察するためです。
因果推論
与えられた前提から筋の通った結論を導けるかを見る能力です。人間特有の認知機能とされてきた分野であり、モデルがそれにどこまで近づけるかが問われます。検証にはCRASSというデータセットが使われ、正解を選ぶ形式で出力を評価。スコアは最も確信度の高い選択肢を正しく選べた割合です。
創造
新しさと価値の両方を備えたアイデアを生み出す力です。評価には、創造的思考を測る心理学的な指標をもとにした仕組みが採用されます。流暢さ、柔軟さ、独創性、緻密さの4点から、物語の応答を判定する形式。答えが正しいかどうかは専門家の判断に基づき、肯定的な回答の割合でスコアを出します。
文脈内学習
文脈といくつかの例を見せたときに、そこからルールを見出して正しい判断ができるかを確認します。使用されたのはLongBench-TRECという長文を扱うタスクで、過去の質問と回答を踏まえて、最終的な質問の分類を行います。正解率を分類スコアとして測定します。
指示追従
プロンプトに含まれる指示をどれだけ正確に理解し、反映できるかを見る能力です。評価にはInfoBenchというデータセットが用いられ、複雑な指示を細かく分けて、それぞれにきちんと従えているかを追跡します。その達成度合いをDRFRという割合で表します。
機械翻訳
ある言語から別の言語に正確に置き換える能力です。評価ではFLORES-101というベンチマークを使い、BLEUスコアで翻訳の質を確認します。スコアは数値を正規化して0から1の範囲に収め、英語から多様な言語への翻訳に対応できるかを見ます。
要約
長い文章の中から重要な情報を取り出し、簡潔にまとめられるかを評価します。検証には専門家が書いた参照要約が含まれたデータセットを使い、モデルがどれだけ要点を押さえられているかをRouge-Lスコアで測定します。語順が違っても意味が近ければスコアが高くなります。
評価の仕方における注意点
LLMの出力にはばらつきがあります。同じ意味の内容でも異なる言い回しになることがあり、完全一致のような厳格な採点方式では正しく評価できない場合があります。また、小さなモデルほど、正解の前後に余計な語が混じることがあり、回答の判定が難しくなることもあります。
例は下の図です。左上の「Reference」は正しい回答「火は大きくならない」を表しており、Choice Aは意味的には合っているのに、Choice B(「火は大きくなる」)のほうがコサイン類似度は高く出てしまっています。

そこで、因果推論や創造性、指示追従のように採点が複雑なタスクでは、人手の代わりにLLMを使って応答の質を確認する方式が採用されています。
一方、翻訳や要約などのように、正解が明確なタスクでは従来通りのスコア計算が使われています。
実験設計の全体像
モデルの性能を多角的に検証するため、研究チームはさまざまなベンチマークを使って実験を行いました。対象となったのは、小型(1B〜4B)、中型(6B〜13B)、大型(40B〜80B)の3サイズに分類された計12のオープンソースモデルです。すべてのモデルは4ビットに量子化され、推論には高速化ツールであるvLLMが使われました。
モデル一覧(サイズ別)を表に示します。
カテゴリ | モデル名 | パラメータ数 | 公開日 |
---|---|---|---|
小型 | Llama-3.2-1B-Instruct | 1.2B | 2024年9月 |
Llama-3.2-3B-Instruct | 3.2B | 2024年9月 | |
Phi-3.5-mini-instruct | 3.8B | 2024年6月 | |
Qwen2.5-1.5B-Instruct | 1.5B | 2025年9月 | |
Qwen2.5-3B-Instruct | 3.1B | 2025年9月 | |
中型 | Llama-2-7b-chat-hf | 6.7B | 2023年7月 |
Llama-2-13b-chat-hf | 13.0B | 2023年7月 | |
Mistral-7B-Instruct-v0.2 | 7.2B | 2024年3月 | |
Meta-Llama-3-8B-Instruct | 8.0B | 2024年4月 | |
大型 | Llama-2-70b-chat-hf | 69.0B | 2023年7月 |
Meta-Llama-3-70B-Instruct | 70.6B | 2024年4月 | |
Mixtral-8x7B-Instruct-v0.1 | 46.7B | 2023年12月 |
評価の際には、1つの質問につき3回ずつ応答を生成し、モデルの再現性を確認しています。温度は0.1から1.9までを0.3刻みで設定し、2.0以上の温度は除外されました(高すぎる温度では出力がランダムになりやすく、意味のある応答にならない傾向があるためです)。
出力の長さは最大4096トークンまで、生成される語の数は最大1024語までに制限しています。また、同じ言葉を何度も繰り返さないようにする設定も加えられています。
評価にはgpt-3.5-turbo-0125を使用し、温度は固定で0.01に設定されています。各モデルは1つの質問に1回のみ応答させる形式でテストされ、プロンプトによる補助的な反復は排除されました。
調査対象データセットと評価指標を下記に示します。
能力 | データセット | サンプル数 | 評価指標 | 評価手法 |
---|---|---|---|---|
因果推論 (CR) | CRASS | 3500 | Top-1 正確度 | GPT-3.5 |
創造性 (CT) | Creativity_eval | 84 | TTCW 正確度 | GPT-3.5 |
文脈内学習 (ICL) | LongBench-TREC | 1015 | 分類スコア (CLS) | 厳密一致 |
指示追従 (IF) | InfoBench | 3500 | DRFR | GPT-3.5 |
機械翻訳 (MT) | FLORES-101 | 2100 | spBLEU (正規化) | SPM トークナイザー |
要約 (SUMM) | benchmark_llm_summarization | 2114 | Rouge-L F1 | 厳密一致 |
補足調査
加えて、SuperGLUEベンチマークを使って、プロンプトごとに最適な温度を自動的に選ぶ手法の検証も行われました。プロンプトに含まれる情報から「どの能力が求められているか」を推定し、それに合った温度を過去の実験結果から選ぶといった方式の手法です。
たとえば、「フランス語の文を英語に翻訳してください」というプロンプトでは、「機械翻訳」が必要な能力として識別され、その能力に対して最も性能が高かった温度が選ばれる仕組みです。この仕組みの効果を確かめるため、3サイズのモデルでSuperGLUEの全タスクを実施し、各質問には3回ずつ回答させて性能を比較しました。
さらに補足調査として、温度設定を0〜4の範囲に拡張し、より高い温度が出力に与える影響も確認しました。とくに高温度設定では応答の一貫性が崩れる傾向がありましたが、大型モデルでは明確な崩壊点は見られませんでした。
推論精度が温度の影響に関係するかどうかも調べるため、同じモデルでFP16(16ビット)精度での実験も実施されました。量子化モデルとの比較により、精度の違いが温度依存性にどう影響するかが検証されています。
そのほか、温度以外のパラメータについても体系的に評価が行われました。Top-KやTop-Pは、次に出力する語を選ぶ際に、どれだけの候補を範囲に含めるかを調整する設定です。Top-Kは確率の高い上位K個(今回は2、5、10)から選び、Top-Pは全体の確率がP(今回は0.8、0.9、1.0)になるまでを範囲とします。繰り返しペナルティ(0.0、1.0、2.0)は、同じ語が何度も出ないようにするための調整値です。これらの設定を変えながら、小型・中型・大型の3つのモデルサイズそれぞれで、出力の安定性や性能にどのような影響があるかを検証しました。
こうして単に温度だけでなく、出力の質に関わる複数の要素がモデルごとにどのように作用するのか調べられました。
温度による性能変化の傾向と、能力ごとの違い
LLMの出力が温度によってどのように変化するか。その傾向を能力ごとに整理し、モデルのサイズや用途に応じた調整のヒントを探ります。
統計的な傾向の整理
まず、6つの能力と温度の関係について、性能スコアとの関係を、相関係数や変動の大きさから確認します。
能力 | ピアソン相関係数 | スピアマン相関係数 | 最大変動幅(小/中/大) | 平均精度(小/中/大) |
---|---|---|---|---|
因果推論 | −0.07 | −0.07 | 146.0 %/49.4 %/19.4 % | 0.41/0.52/0.82 |
創造性 | −0.14 | −0.10 | 186.8 %/154.6 %/82.0 % | 0.36/0.45/0.47 |
文脈内学習 | −0.10 | −0.09 | 122.0 %/55.5 %/20.2 % | 0.38/0.26/0.49 |
指示追従 | −0.40 | −0.37 | 154.7 %/116.6 %/22.0 % | 0.49/0.68/0.73 |
機械翻訳 | −0.216 | −0.40 | 192.3 %/162.6 %/76.9 % | 4.72/5.95/11.55 |
要約 | −0.51 | −0.45 | 154.3 %/89.2 %/4.4 % | 0.16/0.21/0.23 |
指示追従、翻訳、要約のタスクでは、温度との相関がとくに強く、温度設定によって性能が大きく変わることがわかりました。
また、モデルサイズが大きくなるほど、温度を変えても性能が安定する傾向がありました。とくに翻訳や要約では、大型モデルが他よりも安定して高い性能を保っていました。
一方、因果推論や文脈内学習などのタスクでは、小型モデルと大型モデルの差が顕著に現れました。タスクの種類によって、モデル選びや温度設定の影響が大きく異なることが示唆されます。
能力ごとに見る温度の影響
因果推論
論理的な推論を求められるタスクでは、小型モデルの性能は温度にかかわらず低く抑えられたままです。一方で、中型や大型モデルは温度を1.3程度にするとやや改善が見られました。
創造性
自由度の高い出力が求められる創造タスクでは、温度1.3前後がもっとも良い結果となりました。高すぎても低すぎても性能が落ちるため、設定には慎重さが求められます。小型モデルはT=1.0ですでに性能が下がり始めますが、大型モデルはT=1.7あたりまでは持ちこたえています。
文脈内学習
文脈からパターンを見つけて答えるタスクでは、大型モデルの優位性が明確に出ています。温度を変えても性能がほとんど揺らぎません。中型以下では、温度が上がるにつれて性能が下がりやすく、モデルによる違いが大きくなります。
指示追従
プロンプトの内容を忠実に守る能力は、温度が1を超えたあたりから崩れやすくなっています。モデルが大きいほど崩れ始める温度は遅くなりますが、どのモデルでも「ある温度」を境に急激に性能が落ちていきます。忠実性を求める用途では、温度を1未満に設定するのが無難かもしれません。
翻訳
言語を他言語に正確に置き換えるタスクでは、低い温度が圧倒的に有利でした。温度を上げると性能が下がりやすく、翻訳の安定性を保つには、ゼロに近い値が推奨されます。モデルサイズに関係なく、この傾向は一貫していました。
要約
要約タスクでも、温度が高すぎると性能が急激に低下します。小型モデルはその影響を強く受けやすいです。中型モデルは少し余裕があり、大型モデルでは安定した動きが見られました。
下の図は、温度設定がモデルの出力精度にどのような影響を与えるかを、6つの能力別に示したグラフです。横軸に温度、縦軸に精度をとり、小型・中型・大型の3カテゴリに分類されたモデルの平均スコアを比較しています。

この図からも、モデルサイズによる安定性の違いが明確に読み取れます。小型モデルは温度の変化に対して性能の落ち幅が大きく、特に1.0を超えると急激に崩れる傾向があります。一方で、大型モデルは高い温度でも比較的安定した精度を維持しており、温度に対する耐性が高いことがうかがえます。中型モデルはこの中間に位置し、温度が上昇するにつれて徐々に性能が下がっていきますが、小型モデルほどの急激な崩れ方は見られません。
補足検証
異なる温度設定を用いた追加の検証では、温度1.0で固定するよりも、タスクごとに最適な温度を自動で選ぶ方式の方が性能が高くなる場面がありました。とくに小型モデルでは、温度設定を調整することで性能改善が見込める場合があります。
逆に、大型モデルでは温度を動かしても性能の変動は小さく、固定値でも大きな問題は起こりにくいことが確認されています。
高温設定とパラメータの影響
温度を4.0まで広げて観察すると、どのモデルにも「ここを超えると急激に性能が落ちる」という温度があることがわかりました。モデルサイズが大きいほどこの閾値は高くなり、温度変化に対して粘り強くなります。
こちらの実験データについてのグラフも下記に示します。

また、Top-KやTop-P、繰り返しペナルティなどのパラメータを個別に変えた実験では、創造性と指示追従においては設定値が結果に明確な影響を与えることが示されました。創造的な出力を求める場合には、Top-Pを中心にチューニングすることが重要だと分かりました。
まとめ
本記事では、LLMの性能に影響を与える「温度」設定について、その効果を能力別・モデル別に詳しく検証した研究を紹介しました。
出力の安定性や精度がどのように変わるかを、6つの能力に分けて観察し、モデルのサイズや精度設定ごとの傾向も整理されています。
結果として、翻訳や要約のようなタスクでは温度の影響が大きく、特に小型モデルでは性能のばらつきが顕著になることがわかりました。温度を上げると創造性が高まる一方で、指示追従や正確性の面ではマイナスに働く場面もあり、能力ごとの調整が必要になります。
実際にLLMを使う場面では、このようなデータも参考にしつつ用途に合わせて温度の設定を見直してみることで、出力の質を安定させるヒントになるかもしれません。
参照文献情報
- タイトル:Exploring the Impact of Temperature on Large Language Models:Hot or Cold?
- URL:https://doi.org/10.48550/arXiv.2506.07295
- 著者:Lujun Li, Lama Sleem, Niccolo’ Gentile, Geoffrey Nichil, Radu State
- 所属:University of Luxembourg
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。