AIDB Daily Papers
OrcaRouter:ハイブリッド学習でLLMルーティングを最適化する実用システム
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、複数の大規模言語モデル(LLM)の中から最適なモデルを選択する「OrcaRouter」を開発した。
- LLMの能力とコストの違いに対応するため、文脈情報とハイブリッド学習を組み合わせた新しいルーティング手法を提案した点が重要である。
- OrcaRouterは、ルーティング精度75.54%、1000クエリあたり1ドルというコストで、公開リーダーボードで2位を獲得した。
Abstract
The rapid development of large language models, each with distinct capabilities and inference costs, raises a practical deployment question: given an incoming request, which model should handle it? We present OrcaRouter, a production-oriented LLM router that combines a LinUCB-based contextual bandit over lexical and sentence-embedding features with a hybrid offline-online learning protocol. Offline, OrcaRouter obtains full-information feedback by evaluating each candidate model on a curated set of routing prompts, yielding a reward matrix used to fit one ridge regressor per arm. At deployment time, it initializes from these parameters and can optionally continue learning from bandit feedback, updating only the selected model's arm after observing its reward. At the time of our RouterArena submission (May 20, 2026), OrcaRouter-Adaptive ranked second on the public RouterArena leaderboard with an arena score of 72.08, achieving 75.54% accuracy at a cost of USD 1.00 per 1,000 queries.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: