AIDB Daily Papers
GenClaw:コード駆動型エージェントによる画像生成
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 人間アーティストのように、概念化、スケッチ、着色の段階を踏むコード駆動型エージェントによる画像生成手法を提案した。
- 既存手法の課題であったプロンプト書き換えの繰り返しから脱却し、コードを中間キャンバスとして利用することで、より精密な画像生成を実現した点が新しい。
- 検索と推論で概念を構築し、コードでスケッチを描き、画像生成モデルで質感を補完することで、制御性と解釈性の高い画像生成システムへの道を開いた。
Abstract
Image generation models have evolved from text-conditioned pixel synthesis toward multimodal agents endowed with visual comprehension and tool invocation capabilities. Yet, existing agents remain at the mercy of underlying black-box image models. Their workflow is trapped in a repetitive cycle of prompt rewriting for generation refinement, leaving them with no mechanism to directly manipulate the canvas. In essence, the potential of LLMs to serve as a genuine "brush" for precise visual construction remains largely untapped. In this paper, we propose GenClaw, a code-driven agentic image generation paradigm that empowers the agent to create like a human artist: first conceptualizing, then sketching, and finally coloring. Specifically, the agent first constructs the conceptual knowledge and context through search and reasoning. It then utilizes code (e.g., SVG, HTML, Three.js) to render executable visual sketches. Finally, it employs an image generation model to supplement textures, materials, and photorealism. In this workflow, code serves as a controllable intermediate canvas bridging linguistic reasoning and pixel synthesis, seamlessly integrating programmatic logic with the visual expressiveness of generative models. By transforming image generation from a black-box paradigm into a staged process akin to authentic human creation, GenClaw offers a step toward for highly controllable and interpretable visual generation systems.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: