「o1」は従来のモデルとは明確に異なり「珍しいタイプの問題」にも強い

   

最終更新日:2024/10/26

本記事では、OpenAIが開発した新しいモデル「o1」に関する最新の研究結果を紹介します。

LLMは、これまで主に「次の単語を予測する」という方法で訓練されてきました。しかし、この手法には問題があることが指摘されています。

そこでo1は推論能力の向上に特化した新しいアプローチで開発されました。ただし、従来のモデルが抱えていた課題をどこまで克服できているのか、という疑問も生まれています。

今回、イエール大学やOpenAIなどの研究者らが共同でこの謎の解明に取り組みました。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。


参照論文情報

  • タイトル:When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1
  • 著者:R. Thomas McCoy, Shunyu Yao, Dan Friedman, Mathew D. Hardy, Thomas L. Griffiths
  • 研究機関:Yale University, OpenAI, Princeton University, Roundtable

背景

LLMは、次の単語を予測するように訓練されています。「自己回帰」と呼ばれる方法です。しかし、この訓練方法には限界があるのではないかと考えられています。

例えば、LLMは、よく見られる文章を生成する方が、珍しい文章を生成するよりも得意です。同様に、LLMは、よくあるタスクの方が、珍しいタスクよりも上手に処理できます。

このようなメモリ依存の性能は、LLMが次の単語を予測するように訓練を受けた結果だと考えられています。

一方で、OpenAIが開発した新しいシステム「o1」は、推論能力を高めるように特別に最適化されています。これは、従来のLLMとは異なるアプローチです。

今回研究者たちは、o1が従来のLLMとは違う挙動を示すのではないかと予想しました。なぜなら、o1は単に次の単語を予測するだけでなく、推論を行うように訓練されているからです。

しかし、o1の訓練過程にも次の単語を予測する要素が含まれている可能性があります。そのため、従来のLLMと同じような特徴を示す可能性もあります。

そこで、イエール大学、OpenAI、プリンストン大学などの研究者らはこのテーマで検証実験を行いました。

以下に実験内容と結果を紹介します。

「o1」モデルの概要

o1は、OpenAIによって開発された新しい言語モデルです。通常のLLMとは異なり、o1は推論能力を高めるために特別に最適化されたと発表されています。

o1の特徴

o1の詳細な仕組みは公開されていませんが、強化学習を用いて、推論問題を解決するように訓練されています。

問題解決には「思考の連鎖」(Chain of Thought)という手法が採用されています。

思考の連鎖とは

思考の連鎖とは、問題を複数のステップに分解してから最終的な答えを導き出す方法です。複雑な問題でも段階的に解決することができると考えられています。

なお、「ステップバイステップで考えましょう」といった文言を追加するだけの場合はゼロショットCoT、いくつかの例を示しながら推論の過程を明示する場合はFew-Shot CoTと呼ばれることがあります。

o1の出力

ユーザーには最終的な答えのみが表示されますが、o1は背後で思考の連鎖を行なっています。

思考の連鎖の内容は見えませんが、その過程で使用されたトークン(単語や記号)の数は提供されます。

この「思考トークン」の数を分析することで、o1が問題解決にどれだけの労力を要したかを推測できます。

実験結果

使用されたo1のバージョン

この研究では、o1-preview-2024-09-12というバージョンのo1が使用されました。実験はデフォルト設定で行われました。

実験の範囲

研究チームは、以前の研究で扱った課題の一部のみを評価しました。o1の使用コストが比較的高いためです。

なお「以前の研究」とは、”Embers of Autoregression: Understanding Large Language Models through the Problem They Are Trained to Solve“で、このときの結論は、「LLMは次の単語を予測するという訓練アプローチに強く依存しており、これが低確率の状況(訓練データにあまりないタスク)では顕著な失敗を引き起こす可能性があるため、LLMは人間とは異なるシステムとして評価されるべきである」といったものでした。
前回のこの研究では多くの課題で検証されましたが、費用面から検証項目が縮小されたという文脈です。

出力確率の影響

まず、o1の性能が出力の確率(つまり、答えとなる文字列がどれくらいよく使われるか)によって影響を受けるかどうかが調査されました。

評価された課題は以下のとおりです。

  1. シフト暗号の解読(単純な暗号の一種)
  2. ピッグ・ラテン(言葉遊びの一種)の解読
  3. 冠詞の入れ替え(文中の特定の単語を前の単語と入れ替える)
  4. 単語リストの逆転

出力確率の影響を調査した結果をまとめたグラフは次のとおりです。

主な観察結果は以下のとおりです。

まずo1は、他のLLMと同様に、出力確率の影響を明確に受けることが分かりました。

つまり、高確率の出力(よく使われる表現)の場合、o1の性能は向上します。そして低確率の出力(あまり使われない表現)の場合、o1の性能は低下します。

例えばシフト暗号の解読タスクでは、o1の正確さは以下のように変化しました。

  • 最も低確率の場合:47%の正確さ
  • 最も高確率の場合:92%の正確さ

ただしo1は他のLLMと同じ傾向を示したはものの、多くの場合でより良い性能を発揮しました。例えば以前までのLLMでは苦手だった冠詞の入れ替えタスクでは、o1は非常に強い結果を示しました。

トークン使用量についての分析

研究チームは、o1が各クエリに対して使用したトークン(単語や記号)の数も分析しました。

トークン数と出力確率の関係を示すグラフ





その結果、低確率の例では、より多くのトークンが使用される傾向がありました。

そして高確率の例では、より少ないトークンで解答が可能でした。

この結果は、低確率のケースがo1にとってより困難であることを裏付けています。

タスクの頻度による影響

次に、o1の性能がタスクの頻度(よく見られるタスクか珍しいタスクか)によって影響を受けるかどうかを調査しました。

研究チームは5種類のタスクを用意し、それぞれに「よく見られる変種」と「珍しい変種」を設定しました。

  1. シフト暗号の解読
  2. ピッグ・ラテンへのエンコード
  3. 頭字語(アクロニム)の作成
  4. 線形関数の適用
  5. リストのソート

実験の結果得られた主な発見は次のとおりです。

まず、o1は珍しいタスク変種において、以前評価された他のLLMよりも大幅に良い性能を示しました。そして他のLLMが一部のタスクで「よく見られる変種」と「珍しい変種」の間で大きな差を示したのに対し、o1はペアとなる両方の変種で同程度のスコアを達成しました。

左:5つのタスクで、o1は一般的・珍しいバリエーション共に高性能。他のLLMは一般的なもののみ高性能。
右上:難しいソーティングでは、o1も一般的なタイプで優れた性能。
右下:シフト暗号解読では、o1は低確率例で一般的タイプの方が高精度。

難易度を高めた追加実験

研究チームは、o1の高い性能が天井効果(最高点に達してしまい、差が見えにくくなる現象)を引き起こしている可能性を考慮し、2つのタスクでより難しいバージョンを調査しました。

(1)ソートタスク

すべての単語が同じ文字(i)で始まるリストをソートする課題に変更しました。

結果、o1は「よく見られる変種」(アルファベット順)で「珍しい変種」(逆アルファベット順)よりも大幅に良い性能を示しました。

(2)シフト暗号タスク

出力の確率が異なる例を用いて難易度を調整しました。

こちらでは、最も確率の高いケースでは両変種で同様の性能を示しましたが、中程度および低確率のケースでは「よく見られる変種」の方が高い性能を示しました。

トークン使用量の分析

研究チームは、o1が各タスク変種に使用したトークン数も分析しました。

するとシフト暗号解読とアクロニム作成では、珍しい変種の方が多くのトークンを使用していました。一方で、他の3つのタスクでは、両変種でトークン使用量に大きな差はありませんでした。

なお、一部のケース(シフト暗号と頭字語)では、o1は珍しいタスクバリアントよりも一般的なタスクバリアントでより多くのトークンを消費しています。

結論として、o1は他のLLMと比較して、タスクの頻度への感度が大幅に低いことが分かりました。しかし、タスクが十分に難しい場合や、使用されるトークン数を考慮すると、o1もタスクの頻度に影響を受けることが示されました。

まとめ

本記事では、OpenAIの新AIシステム「o1」の性能分析研究を紹介しました。o1は多くのタスクで従来の言語モデルを上回りましたが、出力の確率やタスクの頻度への感度も示しました。これは、o1の訓練に次の単語予測要素が含まれている可能性を示唆しています。研究者らは、AIシステムの完全な理解には、適用されたすべての最適化を考慮する必要があると結論づけています。




■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP