次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

OpenAIのo1モデルへの対抗馬 アリババが独自の推論モデル「Marco-o1」を開発 オープンソースで公開

2024.11.27
深堀り解説

本記事では、OpenAIが発表した大規模推論モデル「o1」を超える性能を目指して開発された、アリババの新しいモデル「Marco-o1」を紹介します。

OpenAIのo1モデルは数学やコーディングなど明確に正解がある分野に主眼を置いていますが、Marco-o1は明確な基準のない現実世界の課題にも対応できる汎用的な推論能力の獲得に挑戦しています。

Chain-of-Thought(CoT)ファインチューニングやモンテカルロ木探索(MCTS)など、最新の技術を組み合わせることで、より幅広い問題解決能力の実現を目指した点が特徴的です。実際にケーススタディではその汎用的な能力がデモ的に示されています。

背景

OpenAIによって発表されたo1モデルは、卓越した推論能力で注目を集めています。OpenAIはo1を単なる大規模言語モデルではなく大規模”推論(すいろん)”モデルとして世に知らしめています。

この成功に触発され、今回Alibabaの研究チームは新しく推論モデルの開発に取り組むことにしました。さらに「o1モデルをさらに幅広い領域に一般化できるか」というチャレンジをすることにしました。

そこで、Chain-of-Thoughtファインチューニング、モンテカルロ木探索、リフレクションメカニズムといった高度な技術を組み合わせることでモデルの開発が進められました。詳細は後述します。

また、その過程で研究チームはデータセットの整備にも取り組みました。Open-O1 CoTデータセット(フィルタリング済み)、Marco-o1 CoTデータセット(合成)、Marco指示データセットを組み合わせることで、モデルの推論能力とタスク遂行能力の向上が図られました。

その結果、出来上がったモデルは、予想を上回る性能を獲得することとなりました。

Marco-o1の推論例。”strawberry”という単語に含まれる’r’の数を数えている。

開発用データセットについて

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事