AIDB Daily Papers
LLMが支配するウェブサイトの現状を捉えるDeGenTWeb
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMが生成したコンテンツがウェブを席巻しているという主張の真偽を、代表的でないサンプルと不透明な手法の問題点を指摘し、DeGenTWebを用いてLLM支配サイトを体系的に特定した。
- LLM生成テキスト検出器をウェブページに適応させ、サイト全体での検出結果を集約する手法を開発し、LLM支配サイトの真の普及率と特徴の理解を目指した。
- Common CrawlとBing検索結果の両方でLLM支配サイトが非常に多く、その割合は増加傾向にあることを発見したが、最新LLMの能力により、今後も正確な特定は困難であると示唆された。
Abstract
Many recent news reports have claimed that content generated by large language models (LLMs) is taking over the web. However, these claims are typically not based on a representative sample of the web and the methodology underlying them is often opaque. Moreover, when aiming to minimize the chances of falsely attributing human-authored content to LLMs, we find that detectors of LLM-generated text perform much worse than advertised. Consequently, we lack an understanding of the true prevalence and characteristics of LLM content on the web. We describe DeGenTWeb which systematically identifies LLM-dominant websites: sites whose content has been generated using LLMs with little human input. We show how to adapt detectors of LLM-generated text for use on web pages, and how to aggregate detection results from multiple pages on a site for accurate site-level categorization. Using DeGenTWeb, we find that LLM-dominant sites are highly prevalent both in data from Common Crawl and in Bing's search results, and that this share is growing over time. We also show that continuing to accurately identify such sites appears challenging given the capabilities of the latest LLMs.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: