次回の更新記事:AIコーディングエージェントのコスト構造を読み解く(公開予定日:2026年05月26日)
AIDB Daily Papers

LLMが支配するウェブサイトの現状を捉えるDeGenTWeb

原題: DeGenTWeb: A First Look at LLM-dominant Websites
著者: Sichang Steven He, Calvin Ardi, Ramesh Govindan, Harsha V. Madhyastha
公開日: 2026-04-30 | 分野: LLM AI ウェブ 自然言語処理 cs.AI cs.CY cs.IR cs.LG コンテンツ分析 生成AI 検出

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMが生成したコンテンツがウェブを席巻しているという主張の真偽を、代表的でないサンプルと不透明な手法の問題点を指摘し、DeGenTWebを用いてLLM支配サイトを体系的に特定した。
  • LLM生成テキスト検出器をウェブページに適応させ、サイト全体での検出結果を集約する手法を開発し、LLM支配サイトの真の普及率と特徴の理解を目指した。
  • Common CrawlとBing検索結果の両方でLLM支配サイトが非常に多く、その割合は増加傾向にあることを発見したが、最新LLMの能力により、今後も正確な特定は困難であると示唆された。

Abstract

Many recent news reports have claimed that content generated by large language models (LLMs) is taking over the web. However, these claims are typically not based on a representative sample of the web and the methodology underlying them is often opaque. Moreover, when aiming to minimize the chances of falsely attributing human-authored content to LLMs, we find that detectors of LLM-generated text perform much worse than advertised. Consequently, we lack an understanding of the true prevalence and characteristics of LLM content on the web. We describe DeGenTWeb which systematically identifies LLM-dominant websites: sites whose content has been generated using LLMs with little human input. We show how to adapt detectors of LLM-generated text for use on web pages, and how to aggregate detection results from multiple pages on a site for accurate site-level categorization. Using DeGenTWeb, we find that LLM-dominant sites are highly prevalent both in data from Common Crawl and in Bing's search results, and that this share is growing over time. We also show that continuing to accurately identify such sites appears challenging given the capabilities of the latest LLMs.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事