AI生成コードは新規コードの4割近くまで GitHub上位1000リポジトリの大規模分析で判明したセキュリティリスクと対策案

2025.12.25
深堀り解説

この記事では、AIによって生成されたコードが実際の開発現場でどのように使われているのかを、大規模に調査した研究を紹介します。

GitHub CopilotやClaude Codeといったコード生成AIは、すでに多くのエンジニアが利用しています。しかし、現実のプロジェクトにAIがどれくらい関与しているのか、またAI生成コードがどのようなセキュリティ上のリスクを生んでいるのかについては、興味が湧くところです。

今回、2022年から2025年にかけてGitHubで人気の高い1000のリポジトリと、7000件以上のCVE(脆弱性情報)に関わるコードを対象に調査が行われました。AI生成コードの実態を大規模に可視化することに成功しています。

背景

ソフトウェア開発では、Claude CodeといったAIによるコード生成ツールの利用が急速に広がっています。実際、統計によると多くの開発者が日常的にこうしたツールを活用しており、AIが生成したコード(以下、AI生成コード)はすでに実験段階を超え、現代の開発プロセスに欠かせない存在となっています。

ただし、このような技術の進歩には、見えにくいセキュリティ上のリスクも潜んでいます。コード生成AIは、大量の公開コードをもとに学習していますが、その中には過去にセキュリティ上の問題を含んだコードも含まれています。その結果、AIは安全ではないコーディングの仕方まで覚えてしまう可能性があり、AIが作り出すコードに既知の脆弱性が含まれたり、文脈との組み合わせによって新たなリスクを生み出す恐れもあるのです。

さらに問題を複雑にしているのが、AIツールの利便性です。開発者はAIと対話しながら、短時間で大量のコードを生成・修正できるため、従来のように丁寧なレビューやセキュリティチェックを省略してしまうことがあります。そうした場合、脆弱なコードがそのまま使われる可能性が高くなります。

これまで学術や産業の分野では、AI生成コードが持つセキュリティ上の懸念について注目してきました。しかし、実際のプロジェクトでAIがどのくらい使われているのか、そしてそれが具体的にどんな影響をもたらしているのかを、体系的かつ大規模に調べた実証研究はほとんど存在しません。このようなデータがなければ、効果的な対策を立てることも難しいのです。

また、技術的な課題として、AI生成コードと人間が書いたコードを見分けるのが非常に難しいという点もあります。見た目や構文、書き方などがよく似ているため、明確に区別する手段がありません。この問題は、AIの利用に関する責任や規制を考える上でも、大きな障壁となっています。

そこで、実態を大規模調査した事例を以下で取り上げます。

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • 全記事・論文コンテンツを無制限で閲覧可能
  • 平日毎日更新、専門家による最新リサーチを配信

関連記事