OpenAI o3-miniの安全機能に関する大規模検証 1万件超のテスト結果

OpenAI o3-miniの安全機能に関する大規模検証　1万件超のテスト結果　

本記事では、OpenAIの新しい言語モデル「o3-mini」の安全性評価に関する研究を紹介します。

2025年初頭、OpenAIは一般公開に先立ち、o3-miniの安全性テストのための早期アクセスプログラムを実施しました。

今回スペインの研究チームによって実施された1万件を超えるテストの結果から、o3-miniの安全性能力や、実用化に向けた課題が明らかにされています。

発表者情報

研究者：Aitor Arrieta et al.

研究機関：モンドラゴン大学、セビリア大学

論文情報詳細は記事の下部に記載されています。

背景

LLMは私たちの日常生活に深く浸透しています。そして利便性が高まる一方で、プライバシーの侵害、偏見の助長、誤情報の拡散といったリスクが懸念されています。

そんな中、OpenAIは現在（2025/1/31）、新しい言語モデル「o3-mini」の開発を進めています。一般公開に先立ち、OpenAIは安全性テストのための早期アクセスプログラムを実施しました。このプログラムには外部の研究機関が参加を許可され、実際のモデルを使用した安全性評価が依頼されました。

スペインのモンドラゴン大学とセビリア大学の研究チームは、独自に開発した自動テストツールを持っていたことから、OpenAIのこの早期アクセスプログラムに選定されました。研究チームは、o3-miniのベータ版に対して、1万件を超える入力データを用いた大規模な安全性テストを実施。その結果と知見が本研究で報告されています。

実験の結果、o3-miniはOpenAIの既存モデルと比較して、より強力な安全性メカニズムを備えていることが示唆されています。

以下で詳しく紹介します。