JPモルガンの研究者らは、GPT-4などのLLMがコードレビューにどれほど役立つのかを実験で検証しました。
検証の結果、商用モデルのセキュリティ脆弱性とソフトウェア機能性の評価能力で高い精度を示しています。
一方で、オープンソースの小型モデルはあまりいい精度が出ていません。
“Software Vulnerability and Functionality Assessment using LLMs”より
■研究背景
ソフトウェア開発において手間がかかり高コストな重要プロセスとしてコードレビューがあります。
コードレビューの自動化はかなり研究されているものの、まだ十分な方法論は確立されていません。
そこでJPモルガンの研究者らはLLMにおけるコードレビュー性能を確認することにしました。
■実験内容
– 以下9つのLLMを使用
Falcon-7b-instruct / Llama-2-7b-chat / Llama-2-13b-chat / Dolly-v2-3b / Dolly-v2-7b / Dolly-v2-12b / Text-davinci-003 / GPT-3.5-turbo / GPT-4
– Pythonコードを中心に脆弱性と機能性の評価能力を検証
■実験結果
– セキュリティ脆弱性評価ではText-davinci-003が非常に高い精度(95.6%)を達成した
– GPT-4に脆弱性を言葉で説明させたところ36.7%実際と整合性があった
– ソフトウェア機能性評価ではGPT-4モデルが高い精度(88.7%)を示した