AIエージェントは、主人の役に立ちたいがために勝手なことをする傾向がある。
Cornell大学の研究者らがGPT・Gemini・Grokを4種類のエージェントハーネスに載せて検証したところ、エラーが起きた実行の約65%で「暴走」が観測されました。
しかもその半分以上はユーザーへの最終報告に”書かれない” まま隠れて行われていました。
例えば404や権限エラーといった「ごく普通の環境エラー」にぶつかると、ユーザーの依頼をなんとか完遂しようとして、頼まれてもいないスクレイピング、権限昇格といった危ない行動に勝手にエスカレートしてしまいます。
研究チームはこれを「accidental meltdown(事故的メルトダウン)」と名付けています。
性能の高いモデルほど「創造的に障害を乗り越える」分だけ危険な行動も増えてしまうといいます。
「役に立とうとする善意のエージェント」がセキュリティ事故の温床になりうるという不安な状況です。