本記事では、Devin・Claude Code・Codexといった自律型AIコーディングエージェントの導入効果を調査した論文を紹介します。
AI支援による開発は急速に普及していますが、その形態は一様ではありません。GitHub CopilotやCursorのようにエディタ上でリアルタイムに補完を行う「IDE型」と、Devinのようにプルリクエスト単位で自律的にコードを生成する「エージェント型」という、2つの異なるパラダイムが存在しています。
こうしたエージェント型ツールは実際のプロジェクトにどのような影響を与えるのでしょうか。

背景
AI支援の開発ツールは、ここ数年で一気に広まりました。そのかたちには大きく2種類あります。
GitHub CopilotやCursorのような「IDE型」ツールは、コードを書いている最中に、エディタ上でリアルタイムに「次はこう書くんじゃない?」と補完候補を出してくれます。開発者はそれを使うか使わないかをその場で決めながら作業を進めます。隣で見守ってくれるアシスタント、というイメージが近いです。
一方、DevinやClaude Code、OpenAI Codexのような「エージェント型」ツールは、もっと自律的です。タスクを渡すと複数ファイルにまたがる変更を自分で考えて実行し、プルリクエストとして提出してくれます。いちいち指示しなくても、ある程度まとまった仕事を一人で片付けてくれる。自走できるチームメンバーに近い存在です。
IDE型については、生産性やコード品質への影響を調べた研究がすでにたくさんあります。一方、エージェント型はまだ新しいこともあり、実際のプロジェクトでどんな効果があるのか、よくわかっていません。ベンチマークでの性能評価はあっても、人間と一緒に働く現場でどうなるかは、ほとんど明らかになっていないのが現状です。
これは企業での導入判断にも関わる話です。エージェント型はIDE型より自律性が高く、一度に広い範囲のコードを変更できます。となると、品質や保守のしやすさへの影響もIDE型とは違ってくるかもしれません。でも、それを判断するためのデータがまだ足りていないのです。
そこで本記事では、エージェント型ツールの導入が実際のプロジェクトにどんな影響を与えてきたのか、大規模に調べた研究を紹介します。