本記事では、LLMの精度向上のために用いられるRAG(検索拡張生成)システムにおける、HTML活用の可能性について紹介します。
現在のRAGシステムでは、ウェブページから単純にテキストを抽出して利用していますが、この過程で見出しの階層構造や表組みのレイアウトといった重要な情報が失われています。そこで注目されているのが「HTMLをそのまま活用する」という新しいアプローチです。
参照論文情報
- タイトル:HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
- 著者:Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen
- 所属:Renmin University of China, Baichuan Intelligent Technology
背景
LLMには、「一般的でない知識を忘れてしまう」「古い情報しか持っていない」「ときおり事実と異なる回答をしてしまう」などの課題があります。
そこでRAGが注目されています。RAGは、外部から必要な情報を検索して取り込むことで、LLMの回答精度を向上させる仕組みです。RAGシステムの中には、ウェブページの情報を活用するものもあります。例えば、ウェブ検索で関連ページを見つけ、HTMLで書かれたウェブページからテキストを抽出し、そのテキストをLLMに入力して回答を生成する、といった流れです。
しかしまだ問題があります。HTMLからテキストを抽出する際に、見出しの階層や表のレイアウト、リンク情報といった、重要な情報が失われてしまうのです。
そこで今回研究者らは、「HTMLをそのままLLMに入力してはどうか」という新しいアプローチを提案しています。
HTMLをそのまま使うことには多くのメリットがあります。学習済みのLLMはすでにHTMLを理解する能力を持っているため、ウェブページの構造や意味的な情報を保持できます。
なお、PDFなどの他の形式の文書をHTMLに変換することも可能です。
ただし、HTMLをそのまま使用する際には新たな課題も存在します。例えば、HTMLファイルは非常に長くなりがちであり、JavaScriptやCSSなど、回答生成に不要な情報も多く含まれています。このため、HTMLを効率的に処理する手法の開発が求められています。
以下、今回の取り組みの全体と開発されたアプローチをわかりやすく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。