本記事では、OpenAIの新しい言語モデル「o3-mini」の安全性評価に関する研究を紹介します。
2025年初頭、OpenAIは一般公開に先立ち、o3-miniの安全性テストのための早期アクセスプログラムを実施しました。
今回スペインの研究チームによって実施された1万件を超えるテストの結果から、o3-miniの安全性能力や、実用化に向けた課題が明らかにされています。
■AIDBからのお知らせ
AIの知識を仕事で活かしたいですか?マッチング機能が新登場。
人材として登録すると、企業からAI関連の仕事のオファーが届きます。
発表者情報
- 研究者:Aitor Arrieta et al.
- 研究機関:モンドラゴン大学、セビリア大学
論文情報詳細は記事の下部に記載されています。
背景
LLMは私たちの日常生活に深く浸透しています。そして利便性が高まる一方で、プライバシーの侵害、偏見の助長、誤情報の拡散といったリスクが懸念されています。
そんな中、OpenAIは現在(2025/1/31)、新しい言語モデル「o3-mini」の開発を進めています。一般公開に先立ち、OpenAIは安全性テストのための早期アクセスプログラムを実施しました。このプログラムには外部の研究機関が参加を許可され、実際のモデルを使用した安全性評価が依頼されました。
スペインのモンドラゴン大学とセビリア大学の研究チームは、独自に開発した自動テストツールを持っていたことから、OpenAIのこの早期アクセスプログラムに選定されました。研究チームは、o3-miniのベータ版に対して、1万件を超える入力データを用いた大規模な安全性テストを実施。その結果と知見が本研究で報告されています。
実験の結果、o3-miniはOpenAIの既存モデルと比較して、より強力な安全性メカニズムを備えていることが示唆されています。
以下で詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。