Dream 7B: Diffusion Large Language Models

About

We introduce Dream 7B, the most powerful open diffusion large language model to date. Unlike autoregressive (AR) models that generate tokens sequentially, Dream 7B employs discrete diffusion modeling to refine sequences in parallel through iterative denoising. Our model consistently outperforms existing diffusion language models on general, mathematical, and coding tasks. Dream 7B demonstrates superior planning abilities and inference flexibility, including arbitrary-order generation, infilling capabilities, and tunable quality-speed trade-offs. These results are achieved through simple yet effective training techniques, including AR-based LLM initialization and context-adaptive token-level noise rescheduling. We release both Dream-Base and Dream-Instruct to facilitate further research in diffusion-based language modeling.

Jiacheng Ye, Zhihui Xie, Lin Zheng, Jiahui Gao, Zirui Wu, Xin Jiang, Zhenguo Li, Lingpeng Kong• 2025

Related benchmarks

Task	Dataset	Result
Commonsense Reasoning	WinoGrande	Accuracy73.56	1581
Mathematical Reasoning	GSM8K	Accuracy74.9	1424
Code Generation	HumanEval	Pass@157.24	1048
Mathematical Reasoning	MATH500 (test)	Accuracy45	922
Commonsense Reasoning	HellaSwag	HellaSwag Accuracy79	897
Mathematical Reasoning	MATH	Accuracy39.2	882
Instruction Following	IFEval	IFEval Accuracy62.5	854
Language Understanding	MMLU	Accuracy69.5	844
Commonsense Reasoning	PIQA	Accuracy55.8	757
Physical Commonsense Reasoning	PIQA	Accuracy75.8	724

Showing 10 of 297 rows

...

Other info

Follow for update

@wizwand_team Discord