Microsoftの研究者らは、LLMのコード生成タスクに役立つ高品質な指示データセット『CodeOcean』を開発したと報告しています。
実験の結果、特定のモデルではHumanEvalベンチマークで16.9%もの改善を示したとのこと。
指示データの品質がコードタスク性能に大きく影響することを裏付けた格好です。
“WaveCoder: Widespread and Versatile Enhanced Instruction Tuning with Refined Data Generation”より
■CodeOcean開発の背景
1. コード生成モデルの精度は不十分とされている
2. 高品質な指示データ不足が原因と考えられている
■どんなデータセットなのか
1. コードタスクの高品質指示データで構成されている
2. 多様なプログラミングタスクをカバーしている
■実験と結果
1. Starcoder-15BとDeepseek-DS-6.7Bで実験した
2. HumanEvalベンチマークで16.9%の改善を示した
(WaveCoder-Starcoder-15B)
3. MBPPベンチマークでは7.4%の改善を達成した
(WaveCoder-Deepseek-6.7B)
4. 他、様々なコードタスクで優れていた
5. コード修復/要約タスクでは最も優れた能力だった
(オープンソースモデルと比較)
今後、さまざまなドメインでの適用、そしてデータセットやモデルの組み合わせで能力向上を検証していきたいとのことです。
なお、広範囲で適用する際には、高品質データの生成と管理自体にリソースが必要である点に注意が必要です。