AIと対話しながらデータセットを探せるシステム「ScienceDB AI」が登場。
さまざまな科学技術分野における1500万件以上のデータの中から、ユーザーの意図を理解して適切なものを推薦する仕組み。
システムは既に https://t.co/upkSw2Svkr で公開されており、誰でも利用可能となっています。
ユーザーが要望を伝えると、システムが研究トピックや実験条件を自動で読み取って検索します。
対話を重ねて絞り込んでいけるのがポイントとのこと。
なお、LLMにありがちな「存在しないデータをでっち上げる」問題を防ぐため、必ず実在するデータだけを返し、引用用の識別子も付与する設計になっているようです。
背景には、科学データが爆発的に増えているのに、必要なものを見つけるのが難しいという現状があります。主要なデータ共有プラットフォームは今もキーワード検索に頼っていて、研究者の複雑なニーズに対応できていません。
本システムは技術的にはデータセットをDBとしてLLMがRAGを行うシンプルな設計でありますが、用途を絞ることによって使い勝手が向上する好例と言えそうです。
📄 参照論文
ScienceDB AI: An LLM-Driven Agentic Recommender System for Large-Scale Scientific Data Sharing Services
所属: Chinese Academy of Sciences