OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功

   

OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル(LLM)の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集(MTAHデータセット)において他のモデルを凌駕し最も優れたパフォーマンスを見せました。

また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。

参照論文情報

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。



関連研究

LLMを活用した機械学習ソリューション自動提案フレームワーク:MLCopilotの紹介

Microsoft、人間とLLMとの効率的なコラボレーションを”ローコードLLM”で実現へ 論文から解説

ChatGPTなどLLMを特定の専門的タスクに強くするプラットフォーム「OpenAGI」登場 論文から詳しく解説

GPTが「心の理論」をもつかどうかはプロンプト次第

大規模言語モデルと抽象言語オブジェクトでデジタルネイチャーを目指す

目次

誤りを生むステップを特定・修正したい

AIが問題を解く際の誤り(幻覚)を特定し修正することは、これまでのモデルでは十分に行えるものではありませんでした。これは、推論のプロセスにおいて「どのステップ」で間違えたのか特定できない問題に起因しています。この問題はAIが特に数学的問題を解く能力を向上させるための大きな障害となっていました。

「数学的な問題」は、複雑な論理的思考を必要とする問題の代表的なものです。数学的な問題を解く過程は一連のステップに分けられます。しかし、これまでのAIモデルでは、これらのステップを個別に評価し、間違いを特定することが難しかったのです。

現状の課題の整理

  1. AIモデルが生成した解答が間違っている場合、どのステップで間違ったのかを特定することが難しい。
  2. 間違ったステップを特定できたとしても、その間違いを修正するための適切なフィードバックを提供することが難しい。

ステップごとにAIの解法プロセス評価を行う「PRM」

image by canva text to image

PRMの概要

OpenAIが開発した新しいフレームワーク「PRM(Process-Level Reasoning Models)」は、AIが数学的問題を解く際の誤りを特定し修正する能力を大幅に向上させます。PRMを使用することで、数学的問題解決の各ステップを評価し、間違いを特定する能力を持つAIモデルを訓練できることが実験で明らかになっています。また、この技術を応用すると数学に限らずAIモデルの推論能力が向上する可能性もあります。

PRMの仕組み「プロセス監督」

PRMの核心的なアイデアは、「プロセス監督(process supervision)」です。「プロセス監督」とは、モデルが生成した解答の各ステップが正しいかどうかを評価するというものです。具体的には、モデルが数学的問題を解く際に生成した各ステップの解答に対して、そのステップが正しいかどうかを示すラベル(正解ラベル)を付与します。そして、これらの正解ラベルを用いてモデルを訓練します。

このプロセス監督により、モデルは各ステップでの間違いを特定し、それを修正する能力を獲得します。具体的には、モデルが間違ったステップを生成した場合、そのステップの正解ラベルが「間違い」であることから、モデルはそのステップが間違っていることを学習します。そして、その間違いを修正するためのフィードバックを受け取ることで、モデルは次回から同じ間違いを避けるようになります。

また、PRMは「ステップレベルの正確さ」を指標としています。これは、モデルが生成した解答の各ステップが正しいかどうかを評価する指標で、モデルの性能を評価するための重要な基準となります。

PRMの特徴まとめ

PRMの主な特徴は以下の通りです:

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について









■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP