最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

DeepSeek R1が実現した教師なし強化学習による推論性能の向上

2025.01.21
深堀り解説

本記事では、LLMの推論能力を強化学習のみで向上させることに取り組んだ新しい研究を紹介します。

大規模言語モデルの推論能力向上には従来、大量の教師あり学習データが必要とされてきましたが、DeepSeek社の研究チームは強化学習のみ、あるいは少量の初期データとの組み合わせで、高い推論性能を実現する手法を開発しました。

結果、OpenAIのo1-1217と同等の性能を持つモデルの開発に成功したようです。

発表者情報

  • 研究機関:DeepSeek-AI

背景

LLMにおいて特に注目されているのが、モデルの推論能力です。これまでOpenAIのo1シリーズが、Chain-of-Thought(思考の連鎖)推論プロセスの長さを増やすことで、数学や科学的推論などの課題で大きな成果を上げてきました。

しかし、効果的なテストタイム・スケーリング手法は依然として研究コミュニティにとって課題となっていました。テストタイム・スケーリング手法とは、モデルの推論能力をテスト時に調整し、改善するための方法です。

これまで、プロセスベースの報酬モデル(モデルが「どのように考えたか」を重視する、囲碁やチェスのようなゲームAIで広く使われているアプローチ)やモンテカルロ木探索(ランダムなシミュレーションを行って最適な選択肢を見つけるアルゴリズム)、ビーム探索(有望な候補を一定数に絞り込む探索アルゴリズム)といった技術が開発されてきました。

一方で、教師なし強化学習でモデルの推論能力を向上させることができれば、データ収集の手間を大幅に削減できる可能性がありました。強化学習とは、簡単に言うと「何かをやって、その結果が良ければご褒美をもらい、悪ければペナルティを受ける」という仕組みで学ぶ方法です。

そこで今回、研究チームは強化学習のみを用いてモデルの推論能力を向上させる手法の開発に取り組みました。さらに、少量の初期データを組み合わせることで、より強力で汎用的な推論能力を持つモデルの開発を目指しました。結果として、o1に匹敵するモデルを開発することに成功したようです。

さらに訓練の途中では研究者らは、ある現象に出合いました。モデルが「待って、待って。待って。今、重要なことに気づいた!」と自発的に口にする”アハ・モーメント”です。

以下でモデルの開発アプローチや評価結果全体を詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事