AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,103件) 短信(804件) 🔒 論文(54,859件) 🔒

OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功

2023.06.012025.03.08

OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル（LLM）の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集（MTAHデータセット）において他のモデルを凌駕し最も優れたパフォーマンスを見せました。

また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。

参照論文情報

タイトル：Let’s Verify Step by Step

著者：Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

URL：https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

ブログ：https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

GitHub：https://github.com/openai/prm800k

Microsoft、人間とLLMとの効率的なコラボレーションを”ローコードLLM”で実現へ　論文から解説

ChatGPTなどLLMを特定の専門的タスクに強くするプラットフォーム「OpenAGI」登場　論文から詳しく解説

GPTが「心の理論」をもつかどうかはプロンプト次第

大規模言語モデルと抽象言語オブジェクトでデジタルネイチャーを目指す

誤りを生むステップを特定・修正したい

ステップごとにAIの解法プロセス評価を行う「PRM」

実験結果とその解釈

一般的な問題解決にも応用できる可能性
- 文章の理解
- 論理的な議論の構築

データセット「PRM800K」が使用可能

まとめ

誤りを生むステップを特定・修正したい

AIが問題を解く際の誤り（幻覚）を特定し修正することは、これまでのモデルでは十分に行えるものではありませんでした。これは、推論のプロセスにおいて「どのステップ」で間違えたのか特定できない問題に起因しています。この問題はAIが特に数学的問題を解く能力を向上させるための大きな障害となっていました。

「数学的な問題」は、複雑な論理的思考を必要とする問題の代表的なものです。数学的な問題を解く過程は一連のステップに分けられます。しかし、これまでのAIモデルでは、これらのステップを個別に評価し、間違いを特定することが難しかったのです。

現状の課題の整理

AIモデルが生成した解答が間違っている場合、どのステップで間違ったのかを特定することが難しい。

間違ったステップを特定できたとしても、その間違いを修正するための適切なフィードバックを提供することが難しい。

ステップごとにAIの解法プロセス評価を行う「PRM」

PRMの概要

OpenAIが開発した新しいフレームワーク「PRM（Process-Level Reasoning Models）」は、AIが数学的問題を解く際の誤りを特定し修正する能力を大幅に向上させます。PRMを使用することで、数学的問題解決の各ステップを評価し、間違いを特定する能力を持つAIモデルを訓練できることが実験で明らかになっています。また、この技術を応用すると数学に限らずAIモデルの推論能力が向上する可能性もあります。

PRMの仕組み「プロセス監督」

PRMの核心的なアイデアは、「プロセス監督（process supervision）」です。「プロセス監督」とは、モデルが生成した解答の各ステップが正しいかどうかを評価するというものです。具体的には、モデルが数学的問題を解く際に生成した各ステップの解答に対して、そのステップが正しいかどうかを示すラベル（正解ラベル）を付与します。そして、これらの正解ラベルを用いてモデルを訓練します。

このプロセス監督により、モデルは各ステップでの間違いを特定し、それを修正する能力を獲得します。具体的には、モデルが間違ったステップを生成した場合、そのステップの正解ラベルが「間違い」であることから、モデルはそのステップが間違っていることを学習します。そして、その間違いを修正するためのフィードバックを受け取ることで、モデルは次回から同じ間違いを避けるようになります。

また、PRMは「ステップレベルの正確さ」を指標としています。これは、モデルが生成した解答の各ステップが正しいかどうかを評価する指標で、モデルの性能を評価するための重要な基準となります。

PRMの特徴まとめ

PRMの主な特徴は以下の通りです：

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
AI検索（公開記事が対象）
PDF翻訳・パーソナライズなど各機能のお試し利用

プレミアム会員の特典

1,000本以上の全過去記事を無制限閲覧
論文ベースの深掘り解説を毎日更新で購読
AI検索の対象が短信・論文（5万本以上）まで拡大
記事で取り上げた論文にその場でAIに質問
論文から生まれたエージェントスキルライブラリ
PDF翻訳・PDF変換をフル活用
あなた専用の論文・記事おすすめが毎日届く

まずはアカウントを作成

ログイン

プレミアム会員について

OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功

誤りを生むステップを特定・修正したい

ステップごとにAIの解法プロセス評価を行う「PRM」

PRMの概要

PRMの仕組み「プロセス監督」

PRMの特徴まとめ

記事検索

こちらもどうぞ

🔒 バイブコーディングで浮足立つなかれ、AIに丸投げすると品質が下がり続けることがある

🔒 個人の深い価値観にもとづく「その人らしい答え」をAIで再現する手法