LLMのサイバーセキュリティタスク性能評価フレームワーク「Cybench」

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

本記事では、LLMのサイバーセキュリティ能力の評価に関する研究を紹介します。研究者らはサイバーセキュリティにおけるプロフェッショナルレベルのタスクをレベル別で細かく用意しました。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
  • 著者:Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
  • 所属:Stanford University

背景

サイバーセキュリティ分野でLLMを活用することも注目を集めています。LLMを用いたエージェント(LLMエージェント)は、システムの脆弱性特定など、サイバーセキュリティタスクを自律的に執行することが期待されています。

これまでサイバーセキュリティ分野におけるLLMの能力を評価するため、さまざまな取り組みが行われてきました。例えば、AI Safety InstituteやOpenAIなどの組織も、高校生、大学生、プロレベルのCTF(Capture The Flag)コンテストを用いた評価を行っています。CTFコンテストとは、参加者が暗号などの問題を解き「フラッグ」と呼ばれる特定の文字列を見つける試合です。

しかし、既存の評価方法は現実世界のサイバーセキュリティ課題を十分に反映していないなどの問題がありました。

また、サイバーセキュリティ特化のLLMエージェントの開発も進められていますが、LLMエージェントの能力を適切に評価するツールも不足しています。

このような背景から、現実的なサイバーセキュリティタスクによってLLMエージェントの性能を評価するフレームワークの開発が行われました。

以下で詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP