最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』

2024.12.04
深堀り解説

本記事では、LLMが実際の企業環境でSQL生成タスクにどの程度対応できるのかを検証した最新の研究を紹介します。

従来の研究では単純なデータベースを用いた実験で高い精度を達成していたLLMですが、実務レベルの複雑なデータベースやワークフローに対する性能は未知数でした。

今回研究者らは、Google AnalyticsやSalesforceなどの実際の企業データを用いた新しいベンチマーク「Spider 2.0」を開発し、それを通じてLLMの実用性における現状と課題を明らかにしました。さらに、SQL生成に特化した専門的なエージェントも設計しました。

発表者情報

  • 研究者:Fangyu Lei et al.
  • 研究機関:University of Hong Kong, Salesforce Research, Sea AI Lab, Google DeepMind, Google Cloud AI Research, University of Waterloo

背景

大規模なデータ処理を必要とする現代において、人間とデータを効果的に橋渡しするコード生成技術が求められています。中でも、データベースに格納された膨大なデータにアクセスするためのインターフェースとしてSQLは欠かせない存在となっています。そこで、自然言語で指示をしてSQLを書く技術(text-to-SQL)は、日常的なクエリ作成を支援する有望な技術として注目されています。

text-to-SQLにおいてもLLMが役立っており、従来のベンチマークであるSpider 1.0で91.2%、BIRDで73.0%という高い実行精度を達成しています。

しかし、既存のベンチマークには現実世界のデータベース環境との大きな乖離があります。

  1. テーブルやカラムが少ない非実用的なデータベースを使用している
  2. 各データベースシステム固有のSQL方言や機能への対応が不足している
  3. 数千のカラムを持つ大規模なスキーマや複雑なネスト構造を持つ実際のデータベースの特徴を反映していない
  4. プロジェクトのコードベース活用、外部知識参照、複数ステップにわたるSQLクエリ構築など、実際のワークフローの複雑さを考慮していない

このような実際の企業環境とベンチマークとの乖離から、今回Googleなどの研究者らは、より現実的な企業レベルのベンチマークを開発することにしました。そして生まれたのがSpider 2.0です。

Spider 2.0によるLLMの評価フレームワークの概要図

また研究者らは、実際のエンタープライズ環境でのデータベース関連タスクに特化したSpider-Agentというエージェントフレームワークを設計しました。

ベンチマーク構築

まずはタスクの定義、構築時の注釈付けパイプライン、Spider 2.0とSpider 2.0-liteのデータセット統計について説明します。

タスク定義

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事