次回の更新記事:AIコーディングエージェントのコスト構造を読み解く(公開予定日:2026年05月26日)
AIDB Daily Papers

個人の視覚的文脈を学習する大規模マルチモーダルモデル

原題: Personal Visual Context Learning in Large Multimodal Models
著者: Zihui Xue, Ami Baid, Sangho Kim, Mi Luo, Kristen Grauman
公開日: 2026-05-11 | 分野: LLM AI パーソナライズ ウェアラブル cs.CV

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 個人の視覚情報を活用する「パーソナルVCL」という能力を定義し、評価するためのベンチマークを開発した。
  • 最先端の大規模マルチモーダルモデルは、個人の視覚文脈を十分に活用できていないという課題を発見した。
  • ユーザー固有の視覚情報を記憶・選択する「エージェンティック・コンテキスト・バンク」を提案し、性能向上を示した。

Abstract

As wearable devices like smart glasses integrate Large Multimodal Models (LMMs) into the continuous first-person visual streams of individual users, the evolution of these models into true personal assistants hinges on visual personalization: the ability to reason over visual information unique to the wearer. We formalize this capability as Personal Visual Context Learning (Personal VCL), the prompt-time capability of using user-specific visual context to resolve personalized queries. To systematically evaluate this, we present Personal-VCL-Bench, a comprehensive benchmark capturing the personal visual world across persons, objects, and behaviors. Our analysis of frontier LMMs identifies a profound context utilization gap, revealing that the mechanisms for leveraging visual evidence, as well as aggregating multiple visual observations, remain critically understudied. Motivated by these findings, we propose the Agentic Context Bank, a strong inference-time baseline that structures a user's visual context into a self-refining memory bank and employs query-adaptive evidence selection. Our baseline approach consistently improves over standard context prompting regimes across tasks and evaluated backbones, demonstrating a practical path towards future personalized LMMs.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事