AIの秘匿戦略：OpenAIとClaudeのリスク評価

2024.12.09

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

o1モデルのリスク評価結果を受け、OpenAIの開発グループは「段階的に浸透させて皆の意見を取り入れたい」と述べています。
https://t.co/ENctpG7LV2
一例として、o1モデルはいわゆる「陰謀」的戦略を内部で実行し得ることが示唆されています。
（ユーザー目標と食い違う独自目標を密かに追求する行動をとること）
ただしo1のエージェント機能は十分でないため、これが恐ろしい事態につながる可能性は低いと考えられています。

📄 参照論文

「目的のためであれば、ユーザーの意図にそぐわない思考プロセスも辿られる」現象は、実はo1に限った話ではないようです。

📎 論文を読む（arxiv.org）

X（Twitter）で見る

AIの秘匿戦略：OpenAIとClaudeのリスク評価

📄 参照論文

関連記事

人を支えるAIの現在地　働く・学ぶ・考えるの再設計

AIチームは最優秀メンバー単独に劣る、妥協と同調が原因

🔒 LLMエージェントの評価はLLM単体の評価と大きく異なる

🔒 漫画を台本に変換するモデル『Magi v2』オックスフォード大学の研究グループが開発

LLMがソフトウェアエンジリアリングにおいて現時点で役に立つこと＆課題。Metaなどの研究者らが報告

🔒 LLMは「色」の概念をどれほど理解しているか

📄 参照論文

関連記事

人を支えるAIの現在地 働く・学ぶ・考えるの再設計

AIチームは最優秀メンバー単独に劣る、妥協と同調が原因

🔒 LLMエージェントの評価はLLM単体の評価と大きく異なる

🔒 漫画を台本に変換するモデル『Magi v2』オックスフォード大学の研究グループが開発

LLMがソフトウェアエンジリアリングにおいて現時点で役に立つこと＆課題。Metaなどの研究者らが報告

🔒 LLMは「色」の概念をどれほど理解しているか

人を支えるAIの現在地　働く・学ぶ・考えるの再設計