次回の更新記事:LLMに「もっと読みやすくして」とリファクタリングを…(公開予定日:2026年03月02日)

LLMによるコードレビュー精度を大規模検証

コード生成(プログラム生成、ソフトウェア開発支援、バグ修正)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

JPモルガンの研究者らは、GPT-4などのLLMがコードレビューにどれほど役立つのかを実験で検証しました。

検証の結果、商用モデルのセキュリティ脆弱性とソフトウェア機能性の評価能力で高い精度を示しています。

一方で、オープンソースの小型モデルはあまりいい精度が出ていません。

“Software Vulnerability and Functionality Assessment using LLMs”より

■研究背景
ソフトウェア開発において手間がかかり高コストな重要プロセスとしてコードレビューがあります。
コードレビューの自動化はかなり研究されているものの、まだ十分な方法論は確立されていません。
そこでJPモルガンの研究者らはLLMにおけるコードレビュー性能を確認することにしました。

■実験内容
– 以下9つのLLMを使用
Falcon-7b-instruct / Llama-2-7b-chat / Llama-2-13b-chat / Dolly-v2-3b / Dolly-v2-7b / Dolly-v2-12b / Text-davinci-003 / GPT-3.5-turbo / GPT-4
– Pythonコードを中心に脆弱性と機能性の評価能力を検証

■実験結果
– セキュリティ脆弱性評価ではText-davinci-003が非常に高い精度(95.6%)を達成した
– GPT-4に脆弱性を言葉で説明させたところ36.7%実際と整合性があった
– ソフトウェア機能性評価ではGPT-4モデルが高い精度(88.7%)を示した

📄 参照論文

論文情報

関連記事