最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

2024.11.11
深堀り解説

本記事では、LLMの精度向上のために用いられるRAG(検索拡張生成)システムにおける、HTML活用の可能性について紹介します。

現在のRAGシステムでは、ウェブページから単純にテキストを抽出して利用していますが、この過程で見出しの階層構造や表組みのレイアウトといった重要な情報が失われています。そこで注目されているのが「HTMLをそのまま活用する」という新しいアプローチです。

背景

LLMには、「一般的でない知識を忘れてしまう」「古い情報しか持っていない」「ときおり事実と異なる回答をしてしまう」などの課題があります。

そこでRAGが注目されています。RAGは、外部から必要な情報を検索して取り込むことで、LLMの回答精度を向上させる仕組みです。RAGシステムの中には、ウェブページの情報を活用するものもあります。例えば、ウェブ検索で関連ページを見つけ、HTMLで書かれたウェブページからテキストを抽出し、そのテキストをLLMに入力して回答を生成する、といった流れです。

しかしまだ問題があります。HTMLからテキストを抽出する際に、見出しの階層や表のレイアウト、リンク情報といった、重要な情報が失われてしまうのです。

そこで今回研究者らは、「HTMLをそのままLLMに入力してはどうか」という新しいアプローチを提案しています。
HTMLをそのまま使うことには多くのメリットがあります。学習済みのLLMはすでにHTMLを理解する能力を持っているため、ウェブページの構造や意味的な情報を保持できます。
なお、PDFなどの他の形式の文書をHTMLに変換することも可能です。

ただし、HTMLをそのまま使用する際には新たな課題も存在します。例えば、HTMLファイルは非常に長くなりがちであり、JavaScriptやCSSなど、回答生成に不要な情報も多く含まれています。このため、HTMLを効率的に処理する手法の開発が求められています。

以下、今回の取り組みの全体と開発されたアプローチをわかりやすく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事