本記事では、LLMのプログラミング能力を評価する新しいベンチマーク「BigCodeBench」を紹介します。
本ベンチマークは実際の開発現場で直面する複雑な課題に焦点を当てており、従来の評価方法では測れなかったLLMの能力を測定することを目指しています。
アカデミアからはUCバークレーやMITなど、また産業界からはインテルやHugging Faceなど、多くの研究機関が本プロジェクトに参画しています。
参照論文情報
- タイトル:BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions
- 著者:Terry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, David Lo, Binyuan Hui, Niklas Muennighoff, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra
- 研究機関:Monash University, CSIRO’s Data61, Singapore Management University, Detomo Inc., Queen Mary University of London, University of Notre Dame, TU Darmstadt, Independent, University of Virginia, Inria, Intel, Cornell University, University College London, UNC Chapel Hill, UC Berkeley, MIT, Shanghai Jiaotong University, UIUC, Sea AI Lab, AWS AI Labs, Contextual AI, Carnegie Mellon University, ServiceNow Research, Hugging Face
背景
LLMを使ったコード生成が注目を集めています。これまでの評価では、短くて独立したアルゴリズム的なタスクを解決できることが示されてきました。
しかし、実際の現場で直面する課題はもっと複雑です。例えば、下記のような能力が要求されます。
- 複数のライブラリ関数を「ツール」として使いこなす
- データ分析やWeb開発などの実践的な機能を実装するには、複数のツールを組み合わせる
- 複雑な指示を正確に理解し、それに基づいて処理を行う
これらの能力を測るには、既存の評価ツールは不十分です。
そこで研究チームは、LLMがこうした実践的なタスクをどの程度解決できるのかを評価するために、BigCodeBenchという新しいベンチマークを開発しました。BigCodeBenchの特徴は以下の通りです。
- 139のライブラリから727の関数呼び出しを使用
- 7つの異なる分野にわたる1,140の細かいタスクを含む
- 各タスクには平均5.6個のテストケースがあり、99%のブランチカバレッジを持つ
また、自然言語に近い指示だけでコードを生成できるかを評価するために、BigCodeBench-Instructという派生版も作成しました。
そして実際に現行の最先端モデルが評価されました。以下で研究全体を紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。