Claude Mythos、脆弱性攻撃でOpusの22倍性能

2026.05.26

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Anthropic共著の新論文に、未発表モデル「Claude Mythos Preview」が明記された実験結果が掲載。

実在ソフトの脆弱性898件を「攻撃コードに変換できるか」測る評価で、Mythosは2時間以内に157件を突破し、Opus 4.7の約22倍。

しかも6時間に延長するとMythosは204件まで到達し、”頭打ちの兆候なし” （同条件でOpus 4.6は30分で15件で飽和）。
これは天井ではなく床値で、時間と計算資源を与えればさらに伸びる可能性が高いといいます。

なお、最難関とされるLinuxカーネル攻撃も12件成功しています。
ASLR等の標準防御を入れても一部は通ったとのことで、本来ランダムで予測不能なはずのメモリ配置を、部分上書きやサイドチャネル漏洩を駆使して推測。
こうした業界標準の防御をすり抜けるケースが現実に起こることを報告しています。

こちらもどうぞ