AIDB Daily Papers
LLMのデータ分析における意味レイヤー:精度と幻覚のベンチマーク
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 分析データベースに対する自然言語クエリでLLMが誤答や確信を持った幻覚を起こす原因は、スキーマにエンコードされていないビジネス意味を推論することにある。
- スキーマに加えて4KBの意味説明ドキュメントをコンテキストとして提供することで、3つの最先端LLMの精度が17〜23%向上した。
- 意味レイヤーの追加は、モデルの能力向上ではなく、モデルへの要求内容を変えることで、テキストからSQLへの変換エラーの主要因を抑制する構造的な結果である。
Abstract
LLMs deployed for natural-language querying of analytical databases suffer from two intertwined failures - incorrect answers and confident hallucinations - both rooted in the same cause: the model is forced to infer business semantics that the schema does not encode. We test whether supplying those semantics as context closes the gap. We benchmark three frontier LLMs (Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.4) on 100 natural-language questions over the Cleaned Contoso Retail Dataset in ClickHouse, using a paired single-shot protocol. Each model is evaluated twice: once given only the warehouse schema, and once given the schema plus a 4 KB hand-authored markdown document describing the dataset's measures, conventions, and disambiguation rules. Adding the document improves accuracy by +17 to +23 percentage points across all three models. With it, the three models are statistically indistinguishable (67.7-68.7%); without it, they are also indistinguishable (45.5-50.5%). Every cross-cluster comparison is significant at p < 0.01. The presence of the semantic-layer document accounts for essentially all of the significant variance; model choice within tier does not. We interpret this as a structural result: explicit business semantics suppress the dominant class of text-to-SQL errors not by making the model more capable, but by changing what the model is being asked to do.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: