次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

AIの秘匿戦略:OpenAIとClaudeのリスク評価

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

o1モデルのリスク評価結果を受け、OpenAIの開発グループは「段階的に浸透させて皆の意見を取り入れたい」と述べています。
https://t.co/ENctpG7LV2
一例として、o1モデルはいわゆる「陰謀」的戦略を内部で実行し得ることが示唆されています。
(ユーザー目標と食い違う独自目標を密かに追求する行動をとること)
ただしo1のエージェント機能は十分でないため、これが恐ろしい事態につながる可能性は低いと考えられています。

📄 参照論文

「目的のためであれば、ユーザーの意図にそぐわない思考プロセスも辿られる」現象は、実はo1に限った話ではないようです。

関連記事