CodeOcean：LLMコード生成を大幅改善する高品質指示データ

2023.12.26

コード生成（プログラム生成、ソフトウェア開発支援、バグ修正）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Microsoftの研究者らは、LLMのコード生成タスクに役立つ高品質な指示データセット『CodeOcean』を開発したと報告しています。

実験の結果、特定のモデルではHumanEvalベンチマークで16.9%もの改善を示したとのこと。
指示データの品質がコードタスク性能に大きく影響することを裏付けた格好です。

“WaveCoder: Widespread and Versatile Enhanced Instruction Tuning with Refined Data Generation”より

■CodeOcean開発の背景
1. コード生成モデルの精度は不十分とされている
2. 高品質な指示データ不足が原因と考えられている

■どんなデータセットなのか
1. コードタスクの高品質指示データで構成されている
2. 多様なプログラミングタスクをカバーしている

■実験と結果
1. Starcoder-15BとDeepseek-DS-6.7Bで実験した
2. HumanEvalベンチマークで16.9%の改善を示した
（WaveCoder-Starcoder-15B）
3. MBPPベンチマークでは7.4%の改善を達成した
（WaveCoder-Deepseek-6.7B）
4. 他、様々なコードタスクで優れていた
5. コード修復/要約タスクでは最も優れた能力だった
（オープンソースモデルと比較）

今後、さまざまなドメインでの適用、そしてデータセットやモデルの組み合わせで能力向上を検証していきたいとのことです。

なお、広範囲で適用する際には、高品質データの生成と管理自体にリソースが必要である点に注意が必要です。

📄 参照論文

■参照情報

📎 論文を読む（arxiv.org）

X（Twitter）で見る

CodeOcean：LLMコード生成を大幅改善する高品質指示データ

📄 参照論文

こちらもどうぞ

🔒 AIが認知労働を全自動化したら本当に経済は成長するのか

🔒 RAGで取得すべき情報はLLMごとの「データの有用性」で異なる