AIDB Daily Papers
AutoChecklist:LLMを評価者としたチェックリスト生成と評価のための構成可能なパイプライン
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- AutoChecklistは、チェックリストを用いた評価を統一的なパイプラインにまとめるオープンソースライブラリです。
- 多様な戦略で評価基準を導出する5つのチェックリスト生成抽象化を定義し、柔軟な構成を可能にしました。
- 検証実験により、提案手法が人間の評価と高い相関を示し、多様な領域への適応性も確認されました。
Abstract
Checklists have emerged as a popular approach for interpretable and fine-grained evaluation, particularly with LLM-as-a-Judge. Beyond evaluation, these structured criteria can serve as signals for model alignment, reinforcement learning, and self-correction. To support these use cases, we present AutoChecklist, an open-source library that unifies checklist-based evaluation into composable pipelines. At its core is a taxonomy of five checklist generation abstractions, each encoding a distinct strategy for deriving evaluation criteria. A modular Generator $rightarrow$ Refiner $rightarrow$ Scorer pipeline connects any generator with a unified scorer, and new configurations can be registered via prompt templates alone. The library ships with ten built-in pipelines implementing published approaches and supports multiple LLM providers (OpenAI, OpenRouter, vLLM). Beyond the Python API, the library includes a CLI for off-the-shelf evaluation and a web interface for interactive exploration. Validation experiments confirm that these checklist methods significantly align with human preferences and quality ratings, and a case study on ICLR peer review rebuttals demonstrates flexible domain adaptation. AutoChecklist is publicly available at https://github.com/ChicagoHAI/AutoChecklist.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: