バグを1つ直す。テストが通る。それだけなら、今のAIエージェントはかなり優秀です。しかし現実の開発現場では、修正はそこで終わりません。要件が変わり、機能が増え、半年前に書いたコードに手を入れる必要が出てきます。そのとき、以前の修正がきれいに書かれていたかどうかが効いてきます。場当たり的なパッチを重ねたコードは、変更のたびに別の箇所が壊れはじめます。この「長期戦での劣化」は調べられていません。1回の修正が正しいかどうかしか見ていなかったからです。

今回紹介する研究では、実際のリポジトリから100日以上の履歴を抽出し、AIエージェントにその道のりを再現させる検証を行っています。その結果、1回きりの修正能力と、長期にわたってコードを保守する能力は、まったくの別物でした。
順を追って見ていきます。