AIDB Daily Papers
SLALOM:社会シミュレーションの妥当性を高める、長期観察指標によるライフサイクル分析
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデル(LLM)エージェントを用いた社会シミュレーションの妥当性検証フレームワークSLALOMを提案した。
- 従来の最終結果検証に加え、社会現象のプロセスを多変量時系列として捉え、中間地点の制約を設けることで、より現実的なシミュレーションを可能にする。
- 動的時間伸縮法(DTW)を用いてシミュレーション軌跡と実証的データとの構造的リアリズムを定量的に評価し、政策シミュレーションの信頼性向上に貢献する。
Abstract
Large Language Model (LLM) agents offer a potentially-transformative path forward for generative social science but face a critical crisis of validity. Current simulation evaluation methodologies suffer from the "stopped clock" problem: they confirm that a simulation reached the correct final outcome while ignoring whether the trajectory leading to it was sociologically plausible. Because the internal reasoning of LLMs is opaque, verifying the "black box" of social mechanisms remains a persistent challenge. In this paper, we introduce SLALOM (Simulation Lifecycle Analysis via Longitudinal Observation Metrics), a framework that shifts validation from outcome verification to process fidelity. Drawing on Pattern-Oriented Modeling (POM), SLALOM treats social phenomena as multivariate time series that must traverse specific SLALOM gates, or intermediate waypoint constraints representing distinct phases. By utilizing Dynamic Time Warping (DTW) to align simulated trajectories with empirical ground truth, SLALOM offers a quantitative metric to assess structural realism, helping to differentiate plausible social dynamics from stochastic noise and contributing to more robust policy simulation standards.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: