
AIエージェントの安全性を考えるうえで、これから重要になりそうなのが「脆弱性を見つけられるか」だけでなく「見つかった脆弱性は本当に攻撃対象なのか」という視点です。
脆弱性は、ソフトウェアに残った設計や実装の弱点です。一方でエクスプロイトは、その弱点を使って想定外の動作を引き起こし、攻撃として成立させる手段を指します。家にたとえるなら、脆弱性は鍵のかかりが甘い状態で、エクスプロイトはその鍵を実際に開け、中へ入るところまで組み立てた行為です。
本記事は、この差に注目します。
Claude Mythosをはじめとするフロンティアモデルは、脆弱性の存在を知るだけでなく、現実のソフトウェア上で攻撃を成立させるところまで進みつつあるのか。
その能力を測るために、実世界の脆弱性を使った大規模な評価環境が作られました。