AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,107件) 短信(806件) 🔒 論文(54,859件) 🔒

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

2024.11.112025.12.22

本記事では、LLMの精度向上のために用いられるRAG（検索拡張生成）システムにおける、HTML活用の可能性について紹介します。

現在のRAGシステムでは、ウェブページから単純にテキストを抽出して利用していますが、この過程で見出しの階層構造や表組みのレイアウトといった重要な情報が失われています。そこで注目されているのが「HTMLをそのまま活用する」という新しいアプローチです。

背景

LLMには、「一般的でない知識を忘れてしまう」「古い情報しか持っていない」「ときおり事実と異なる回答をしてしまう」などの課題があります。

そこでRAGが注目されています。RAGは、外部から必要な情報を検索して取り込むことで、LLMの回答精度を向上させる仕組みです。RAGシステムの中には、ウェブページの情報を活用するものもあります。例えば、ウェブ検索で関連ページを見つけ、HTMLで書かれたウェブページからテキストを抽出し、そのテキストをLLMに入力して回答を生成する、といった流れです。

しかしまだ問題があります。HTMLからテキストを抽出する際に、見出しの階層や表のレイアウト、リンク情報といった、重要な情報が失われてしまうのです。

そこで今回研究者らは、「HTMLをそのままLLMに入力してはどうか」という新しいアプローチを提案しています。
HTMLをそのまま使うことには多くのメリットがあります。学習済みのLLMはすでにHTMLを理解する能力を持っているため、ウェブページの構造や意味的な情報を保持できます。
なお、PDFなどの他の形式の文書をHTMLに変換することも可能です。

ただし、HTMLをそのまま使用する際には新たな課題も存在します。例えば、HTMLファイルは非常に長くなりがちであり、JavaScriptやCSSなど、回答生成に不要な情報も多く含まれています。このため、HTMLを効率的に処理する手法の開発が求められています。

以下、今回の取り組みの全体と開発されたアプローチをわかりやすく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
AI検索（公開記事が対象）
PDF翻訳・パーソナライズなど各機能のお試し利用

プレミアム会員の特典

1,000本以上の全過去記事を無制限閲覧
論文ベースの深掘り解説を毎日更新で購読
AI検索の対象が短信・論文（5万本以上）まで拡大
記事で取り上げた論文にその場でAIに質問
論文から生まれたエージェントスキルライブラリ
PDF翻訳・PDF変換をフル活用
あなた専用の論文・記事おすすめが毎日届く

まずはアカウントを作成

ログイン

プレミアム会員について

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

背景

記事検索

こちらもどうぞ

🔒 今週の注目AI論文リスト（論文公開日2026/5/31～6/6）

🔒 LLMとロボットによる休まない研究員で「ラボオートメーション」した事例を分析　”クラウドAIラボ”で研究は捗るか

背景

記事検索

こちらもどうぞ

🔒 今週の注目AI論文リスト（論文公開日2026/5/31～6/6）

🔒 LLMとロボットによる休まない研究員で「ラボオートメーション」した事例を分析 ”クラウドAIラボ”で研究は捗るか

🔒 LLMとロボットによる休まない研究員で「ラボオートメーション」した事例を分析　”クラウドAIラボ”で研究は捗るか