
Claude CodeやCodexのようなコーディングAIにバグ修正を任せると、多くの場合、「コードを直す」「テストを走らせる」「結果を見てまた直す」という流れが繰り返されます。テストを実行して合否を確かめながら修正することは、いまや最新のAIエージェントにとって標準的な動作になっています。
しかし、テスト実行にはコストがあります。1回走らせるたびにトークンを消費し、結果が返ってくるまで待ち時間も発生します。では、そのコストに見合うだけの効果は、本当に得られているのでしょうか。テスト実行を完全に禁止した場合と、自由に実行できる場合とで、バグの直り方はどれほど変わるのか。3つのエージェント、200件の実在バグ、3,000回の修正試行を使って、この問いが正面から検証されました。
そこで見えてきたのは、多くのエンジニアが持っている「テスト実行はあって当然」という感覚を揺さぶる結果でした。テスト実行は、どんな場面では役に立ち、どんな場面ではコストに見合わないのでしょうか。