WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

About

Reinforcement learning (RL) promises to unlock capabilities beyond imitation learning for Vision--Language--Action (VLA) models, but its requirement for massive real-world interaction prevents direct deployment on physical robots. Recent work attempts to use learned world models as simulators for policy optimization, yet closed-loop imagined rollouts inevitably suffer from hallucination and long-horizon error accumulation. Such errors not only degrade visual fidelity, but also mislead policy optimization by providing unreliable learning signals. We propose WoVR, a reliable world-model-based RL framework for post-training VLA policies. Instead of assuming a faithful world model, WoVR explicitly regulates how RL interacts with imperfect imagined dynamics. It improves rollout stability through a controllable action-conditioned video world model, reshapes imagined interaction to reduce effective error depth via Keyframe-Initialized Rollouts, and maintains policy--simulator alignment through World Model-Policy co-evolution. Extensive experiments demonstrate that WoVR enables stable long-horizon imagined rollouts and effective policy optimization, achieving superior LIBERO performance and consistent real-world gains across multiple robotic platforms. These results show that world models can serve as practical simulators for RL when hallucination is explicitly controlled. Additional visualization results are available at https://wovr-corl.github.io.

Zhennan Jiang, Shangqing Zhou, Yutong Jiang, Zefang Huang, Mingjie Wei, Yuhui Chen, Tianxing Zhou, Zhen Guo, Hao Lin, Quanlu Zhang, Yu Wang, Haoran Li, Chao Yu, Dongbin Zhao• 2026

Related benchmarks

Task	Dataset	Result
Robot Manipulation	LIBERO	Object Achievement82	1025
Robot Policy Learning	LIBERO	S (Spatial) Rate81.6	73
Robot Manipulation Aggregate	Franka Manipulation Real-World (Evaluation)	Mean Success Rate66	16
Robot Policy Success Rate	LIBERO Spatial	Success Rate53.12	14
World Model Generation	LIBERO	FPS23	12
Bowl-to-plate	Franka manipulation Real-world	Task Success Rate90	7
Apple selection	Real-world Franka manipulation	Task Success Rate (TSR)90	7
Block-stacking	Franka manipulation Real-world	Task Success Rate (TSR)50	7
Dual-arm stacking	Real-world Franka manipulation	Task Success Rate (TSR)40	7
Bread-to-toaster	Franka manipulation Real-world	Task Success Rate (TSR)60	7

Showing 10 of 16 rows

Other info

Follow for update

@wizwand_team Discord