Transition Models: Rethinking the Generative Learning Objective

About

A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.

Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai• 2025

Related benchmarks

Task	Dataset	Result
Class-conditional Image Generation	ImageNet 256x256	Inception Score (IS)210.3	967
Image Generation	ImageNet 256x256	--	517
Class-conditional Image Generation	ImageNet 256x256 (val)	--	493
Image Generation	ImageNet 256x256 (val)	FID7.11	399
Text-to-Image Generation	GenEval 1.0 (test)	Overall Score77.97	130
Class-conditional generation	ImageNet 256 x 256 1k (val)	FID3.26	104
Image Generation	ImageNet 256x256 (test)	FID3.26	83
Conditional Image Generation	ImageNet 256px 2012 (val)	FID3.26	50

Showing 8 of 8 rows

Other info

Follow for update

@wizwand_team Discord