次回の更新記事:LLMエージェント間で観察された人間のような「意見の…(公開予定日:2025年01月23日)

DeepSeekが実現した教師なし強化学習による推論性能の向上

   

本記事では、LLMの推論能力を強化学習のみで向上させることに取り組んだ新しい研究を紹介します。

大規模言語モデルの推論能力向上には従来、大量の教師あり学習データが必要とされてきましたが、DeepSeek社の研究チームは強化学習のみ、あるいは少量の初期データとの組み合わせで、高い推論性能を実現する手法を開発しました。

結果、OpenAIのo1-1217と同等の性能を持つモデルの開発に成功したようです。


【AIDBから新サービスのお知らせ】


発表者情報

  • 研究機関:DeepSeek-AI

背景

LLMにおいて特に注目されているのが、モデルの推論能力です。これまでOpenAIのo1シリーズが、Chain-of-Thought(思考の連鎖)推論プロセスの長さを増やすことで、数学や科学的推論などの課題で大きな成果を上げてきました。

しかし、効果的なテストタイム・スケーリング手法は依然として研究コミュニティにとって課題となっていました。テストタイム・スケーリング手法とは、モデルの推論能力をテスト時に調整し、改善するための方法です。

これまで、プロセスベースの報酬モデル(モデルが「どのように考えたか」を重視する、囲碁やチェスのようなゲームAIで広く使われているアプローチ)やモンテカルロ木探索(ランダムなシミュレーションを行って最適な選択肢を見つけるアルゴリズム)、ビーム探索(有望な候補を一定数に絞り込む探索アルゴリズム)といった技術が開発されてきました。

一方で、教師なし強化学習でモデルの推論能力を向上させることができれば、データ収集の手間を大幅に削減できる可能性がありました。強化学習とは、簡単に言うと「何かをやって、その結果が良ければご褒美をもらい、悪ければペナルティを受ける」という仕組みで学ぶ方法です。

そこで今回、研究チームは強化学習のみを用いてモデルの推論能力を向上させる手法の開発に取り組みました。さらに、少量の初期データを組み合わせることで、より強力で汎用的な推論能力を持つモデルの開発を目指しました。結果として、o1に匹敵するモデルを開発することに成功したようです。

さらに訓練の途中では研究者らは、ある現象に出合いました。モデルが「待って、待って。待って。今、重要なことに気づいた!」と自発的に口にする”アハ・モーメント”です。

以下でモデルの開発アプローチや評価結果全体を詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






AIDBの新サービス

PAGE TOP