「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

本記事では、LLMの精度向上のために用いられるRAG（検索拡張生成）システムにおける、HTML活用の可能性について紹介します。

現在のRAGシステムでは、ウェブページから単純にテキストを抽出して利用していますが、この過程で見出しの階層構造や表組みのレイアウトといった重要な情報が失われています。そこで注目されているのが「HTMLをそのまま活用する」という新しいアプローチです。

参照論文情報

タイトル：HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

著者：Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen

所属：Renmin University of China, Baichuan Intelligent Technology

背景

LLMには、「一般的でない知識を忘れてしまう」「古い情報しか持っていない」「ときおり事実と異なる回答をしてしまう」などの課題があります。

そこでRAGが注目されています。RAGは、外部から必要な情報を検索して取り込むことで、LLMの回答精度を向上させる仕組みです。RAGシステムの中には、ウェブページの情報を活用するものもあります。例えば、ウェブ検索で関連ページを見つけ、HTMLで書かれたウェブページからテキストを抽出し、そのテキストをLLMに入力して回答を生成する、といった流れです。

しかしまだ問題があります。HTMLからテキストを抽出する際に、見出しの階層や表のレイアウト、リンク情報といった、重要な情報が失われてしまうのです。

そこで今回研究者らは、「HTMLをそのままLLMに入力してはどうか」という新しいアプローチを提案しています。
HTMLをそのまま使うことには多くのメリットがあります。学習済みのLLMはすでにHTMLを理解する能力を持っているため、ウェブページの構造や意味的な情報を保持できます。
なお、PDFなどの他の形式の文書をHTMLに変換することも可能です。

ただし、HTMLをそのまま使用する際には新たな課題も存在します。例えば、HTMLファイルは非常に長くなりがちであり、JavaScriptやCSSなど、回答生成に不要な情報も多く含まれています。このため、HTMLを効率的に処理する手法の開発が求められています。

以下、今回の取り組みの全体と開発されたアプローチをわかりやすく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

LLMの機能別「領域」はまるで脳のようであるとの仮説

上司役のLLMが部下LLMたちに的確に仕事を振り分ける『Magentic-One』マイクロソフトが開発

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

背景

コンテンツ検索

おすすめポスト

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

背景

コンテンツ検索

直近1ヶ月で読まれている記事

おすすめポスト