DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers

About

World model-based searching and planning are widely recognized as a promising path toward human-level physical intelligence. However, current driving world models primarily rely on video diffusion models, which specialize in visual generation but lack the flexibility to incorporate other modalities like action. In contrast, autoregressive transformers have demonstrated exceptional capability in modeling multimodal data. Our work aims to unify both driving model simulation and trajectory planning into a single sequence modeling problem. We introduce a multimodal driving language based on interleaved image and action tokens, and develop DrivingGPT to learn joint world modeling and planning through standard next-token prediction. Our DrivingGPT demonstrates strong performance in both action-conditioned video generation and end-to-end planning, outperforming strong baselines on large-scale nuPlan and NAVSIM benchmarks.

Yuntao Chen, Yuqi Wang, Zhaoxiang Zhang• 2024

Related benchmarks

Task	Dataset	Result
Autonomous Driving	NAVSIM v1 (test)	NC98.9	147
Autonomous Driving Planning	NAVSIM v1	NC98.9	126
Autonomous Driving Planning	NAVSIM v1 (test)	NC98.9	118
Video Generation	nuScenes (val)	FVD142.6	72
Autonomous Driving Planning	NAVSIM (navtest)	NC98.9	68
Autonomous Driving	NAVSIM (test)	PDMS82.4	62
Planning	NAVSIM (test)	PDMS82.4	59
Planning	NAVSIM (navtest)	NC98.9	53
Closed-loop Planning	NAVSIM	NC Metric98.9	40
Autonomous Driving	NAVSIM (navtest)	PDMS82.4	26

Showing 10 of 20 rows

Other info

Code

Follow for update

@wizwand_team Discord