VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

About

Visual content generation has advanced from single-image to multi-image workflows, yet existing agents remain largely plan-driven and lack systematic reflection mechanisms to correct mid-trajectory visual errors. To address this limitation, we propose VisionCreator-R1, a native visual generation agent with explicit reflection, together with a Reflection-Plan Co-Optimization (RPCO) training methodology. Through extensive experiments and trajectory-level analysis, we uncover reflection-plan optimization asymmetry in reinforcement learning (RL): planning can be reliably optimized via plan rewards, while reflection learning is hindered by noisy credit assignment. Guided by this insight, our RPCO first trains on the self-constructed VCR-SFT dataset with reflection-strong single-image trajectories and planning-strong multi-image trajectories, then co-optimization on VCR-RL dataset via RL. This yields our unified VisionCreator-R1 agent, which consistently outperforms Gemini2.5Pro on existing benchmarks and our VCR-bench covering single-image and multi-image tasks.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu• 2026

Related benchmarks

Task	Dataset	Result
Image Editing	GEdit-Bench	Semantic Consistency7.6	102
Image Editing	VCR-Bench Single-Img	Performance Score0.532	5
Image Editing	VCR-Bench Multi-Img	Performance Score0.7	5
Image Editing	VCR-Bench Img2mg	Performance Score0.836	5

Showing 4 of 4 rows

Other info

Follow for update

@wizwand_team Discord