dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning

About

The autonomous driving community is increasingly focused on addressing the challenges posed by out-of-distribution (OOD) driving scenarios. A dominant research trend seeks to enhance end-to-end (E2E) driving systems by integrating vision-language models (VLMs), leveraging their rich world knowledge and reasoning abilities to improve generalization across diverse environments. However, most existing VLMs or vision-language agents (VLAs) are built upon autoregressive (AR) models. In this paper, we observe that existing AR-based VLMs -- limited by causal attention and sequential token generation -- often fail to maintain consistency and controllability between high-level reasoning and low-level planning. In contrast, recent discrete diffusion VLMs equipped with bidirectional attention exhibit superior controllability and reliability through iterative denoising. Building on these observations, we introduce dVLM-AD, a diffusion-based vision-language model that unifies perception, structured reasoning, and low-level planning for end-to-end driving. Evaluated on nuScenes and WOD-E2E, dVLM-AD yields more consistent reasoning-action pairs and achieves planning performance comparable to existing driving VLM/VLA systems despite a modest backbone, outperforming AR-based baselines with a 9 percent improvement in behavior-trajectory consistency and a 6 percent increase in RFS on long-tail WOD-E2E scenarios. These results suggest a controllable and reliable pathway for scalable end-to-end driving.

Yingzi Ma, Yulong Cao, Wenhao Ding, Shuibai Zhang, Yan Wang, Boris Ivanovic, Ming Jiang, Marco Pavone, Chaowei Xiao• 2025

Related benchmarks

Task	Dataset	Result
Planning	nuScenes (val)	--	97
End-to-end Driving	Waymo E2E Driving Challenge (Leaderboard)	RFS (Overall)7.6331	28
Autonomous Driving Planning	WOD-E2E (test)	RFS7.633	25
End-to-end Autonomous Driving	WOD-E2E (test)	RFS7.63	6
Behavior-Trajectory Alignment	nuScenes (val)	Longitudinal Score87.1	4
Driving Planning Evaluation	WOD-E2E (val)	RFS7.633	4
Object-Explanation Consistency	nuScenes (val)	Object → Explanation Consistency98.2	4
Object-Explanation Consistency	WOD-E2E (val)	O -> E Consistency98.1	4
Behavior-Trajectory Alignment	WOD-E2E (val)	Longitudinal Error74.4	4
Driving Planning Evaluation	nuScenes (val)	Collision Rate32	2

Showing 10 of 10 rows

Other info

Follow for update

@wizwand_team Discord