AIDB Daily Papers
データセット検索のためのエージェント型ハイブリッド検索リファレンスアーキテクチャ
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 自然言語クエリと不完全なメタデータ間のミスマッチを解消するため、LLMエージェントがクエリ計画、結果評価、再ランキングを行うハイブリッド検索アーキテクチャを提案した。
- この研究は、従来の検索手法の限界を超え、LLMを活用したエージェントベースのアプローチにより、データセット検索の質と信頼性を向上させる点で重要である。
- 提案アーキテクチャは、BM25と密ベクトル検索を組み合わせ、メタデータ拡張により検索精度を高め、品質属性のトレードオフ分析と評価フレームワークを提示した。
Abstract
Ad hoc dataset search requires matching underspecified natural-language queries against sparse, heterogeneous metadata records, a task where typical lexical or dense retrieval alone falls short. We reposition dataset search as a software-architecture problem and propose a bounded, auditable reference architecture for agentic hybrid retrieval that combines BM25 lexical search with dense-embedding retrieval via reciprocal rank fusion (RRF), orchestrated by a large language model (LLM) agent that repeatedly plans queries, evaluates the sufficiency of results, and reranks candidates. To reduce the vocabulary mismatch between user intent and provider-authored metadata, we introduce an offline metadata augmentation step in which an LLM generates pseudo-queries for each dataset record, augmenting both retrieval indexes before query time. Two architectural styles are examined: a single ReAct agent and a multi-agent horizontal architecture with Feedback Control. Their quality-attribute tradeoffs are analyzed with respect to modifiability, observability, performance, and governance. An evaluation framework comprising seven system variants is defined to isolate the contribution of each architectural decision. The architecture is presented as an extensible reference design for the software architecture community, incorporating explicit governance tactics to bound and audit nondeterministic LLM components.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: