LLMによるコードレビュー精度を大規模検証

2024.03.16

コード生成（プログラム生成、ソフトウェア開発支援、バグ修正）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

JPモルガンの研究者らは、GPT-4などのLLMがコードレビューにどれほど役立つのかを実験で検証しました。

検証の結果、商用モデルのセキュリティ脆弱性とソフトウェア機能性の評価能力で高い精度を示しています。

一方で、オープンソースの小型モデルはあまりいい精度が出ていません。

“Software Vulnerability and Functionality Assessment using LLMs”より

■研究背景
ソフトウェア開発において手間がかかり高コストな重要プロセスとしてコードレビューがあります。
コードレビューの自動化はかなり研究されているものの、まだ十分な方法論は確立されていません。
そこでJPモルガンの研究者らはLLMにおけるコードレビュー性能を確認することにしました。

■実験内容
– 以下9つのLLMを使用
Falcon-7b-instruct / Llama-2-7b-chat / Llama-2-13b-chat / Dolly-v2-3b / Dolly-v2-7b / Dolly-v2-12b / Text-davinci-003 / GPT-3.5-turbo / GPT-4
– Pythonコードを中心に脆弱性と機能性の評価能力を検証

■実験結果
– セキュリティ脆弱性評価ではText-davinci-003が非常に高い精度（95.6%）を達成した
– GPT-4に脆弱性を言葉で説明させたところ36.7%実際と整合性があった
– ソフトウェア機能性評価ではGPT-4モデルが高い精度（88.7%）を示した

📄 参照論文

論文情報

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMによるコードレビュー精度を大規模検証

📄 参照論文

こちらもどうぞ

🔒 主要LLM各社のプライバシーポリシー比較　ユーザーのデータはどう扱われるか

🔒 100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証　40%まで達成

📄 参照論文

こちらもどうぞ

🔒 主要LLM各社のプライバシーポリシー比較 ユーザーのデータはどう扱われるか

🔒 100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証 40%まで達成

🔒 主要LLM各社のプライバシーポリシー比較　ユーザーのデータはどう扱われるか

🔒 100万ドル分のソフトウェアエンジニアリングタスクで最先端のLLMを検証　40%まで達成