AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,107件) 短信(806件) 🔒 論文(54,859件) 🔒

実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』

2024.12.042025.03.08

本記事では、LLMが実際の企業環境でSQL生成タスクにどの程度対応できるのかを検証した最新の研究を紹介します。

従来の研究では単純なデータベースを用いた実験で高い精度を達成していたLLMですが、実務レベルの複雑なデータベースやワークフローに対する性能は未知数でした。

今回研究者らは、Google AnalyticsやSalesforceなどの実際の企業データを用いた新しいベンチマーク「Spider 2.0」を開発し、それを通じてLLMの実用性における現状と課題を明らかにしました。さらに、SQL生成に特化した専門的なエージェントも設計しました。

発表者情報

研究者：Fangyu Lei et al.

研究機関：University of Hong Kong, Salesforce Research, Sea AI Lab, Google DeepMind, Google Cloud AI Research, University of Waterloo

背景

大規模なデータ処理を必要とする現代において、人間とデータを効果的に橋渡しするコード生成技術が求められています。中でも、データベースに格納された膨大なデータにアクセスするためのインターフェースとしてSQLは欠かせない存在となっています。そこで、自然言語で指示をしてSQLを書く技術（text-to-SQL）は、日常的なクエリ作成を支援する有望な技術として注目されています。

text-to-SQLにおいてもLLMが役立っており、従来のベンチマークであるSpider 1.0で91.2%、BIRDで73.0%という高い実行精度を達成しています。

しかし、既存のベンチマークには現実世界のデータベース環境との大きな乖離があります。

テーブルやカラムが少ない非実用的なデータベースを使用している

各データベースシステム固有のSQL方言や機能への対応が不足している

数千のカラムを持つ大規模なスキーマや複雑なネスト構造を持つ実際のデータベースの特徴を反映していない

プロジェクトのコードベース活用、外部知識参照、複数ステップにわたるSQLクエリ構築など、実際のワークフローの複雑さを考慮していない

このような実際の企業環境とベンチマークとの乖離から、今回Googleなどの研究者らは、より現実的な企業レベルのベンチマークを開発することにしました。そして生まれたのがSpider 2.0です。

また研究者らは、実際のエンタープライズ環境でのデータベース関連タスクに特化したSpider-Agentというエージェントフレームワークを設計しました。

ベンチマーク構築

まずはタスクの定義、構築時の注釈付けパイプライン、Spider 2.0とSpider 2.0-liteのデータセット統計について説明します。

タスク定義

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
AI検索（公開記事が対象）
PDF翻訳・パーソナライズなど各機能のお試し利用

プレミアム会員の特典

1,000本以上の全過去記事を無制限閲覧
論文ベースの深掘り解説を毎日更新で購読
AI検索の対象が短信・論文（5万本以上）まで拡大
記事で取り上げた論文にその場でAIに質問
論文から生まれたエージェントスキルライブラリ
PDF翻訳・PDF変換をフル活用
あなた専用の論文・記事おすすめが毎日届く

まずはアカウントを作成

ログイン

プレミアム会員について

実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』

背景

ベンチマーク構築

タスク定義

記事検索

こちらもどうぞ

最先端AIが迷路や間違い探しで幼児に完敗

🔒 LLM検索と従来検索が好むウェブサイトの違い