LLaDA-MoE: A Sparse MoE Diffusion Language Model

About

We introduce LLaDA-MoE, a large language diffusion model with the Mixture-of-Experts (MoE) architecture, trained from scratch on approximately 20T tokens. LLaDA-MoE achieves competitive performance with significantly reduced computational overhead by maintaining a 7B-parameter capacity while activating only 1.4B parameters during inference. Our empirical evaluation reveals that LLaDA-MoE achieves state-of-the-art performance among diffusion language models with larger parameters, surpassing previous diffusion language models LLaDA, LLaDA 1.5, and Dream across multiple benchmarks. The instruct-tuned model LLaDA-MoE-7B-A1B-Instruct demonstrates capabilities comparable to Qwen2.5-3B-Instruct in knowledge understanding, code generation, mathematical reasoning, agent and alignment tasks, despite using fewer active parameters. Our results show that integrating a sparse MoE architecture into the training objective of masked diffusion language models still brings out MoE's strengths under efficient inference with few active parameters, and opens ample room for further exploration of diffusion language models. LLaDA-MoE models are available at Huggingface.

Fengqi Zhu, Zebin You, Yipeng Xing, Zenan Huang, Lin Liu, Yihong Zhuang, Guoshan Lu, Kangyu Wang, Xudong Wang, Lanning Wei, Hongrui Guo, Jiaqi Hu, Wentao Ye, Tieyuan Chen, Chenchen Li, Chengfu Tang, Haibo Feng, Jun Hu, Jun Zhou, Xiaolu Zhang, Zhenzhong Lan, Junbo Zhao, Da Zheng, Chongxuan Li, Jianguo Li, Ji-Rong Wen• 2025

Related benchmarks

Task	Dataset	Result
Code Generation	HumanEval	Pass@161.6	1048
Mathematical Reasoning	MATH	Accuracy58.7	882
Instruction Following	IFEval	--	854
Language Understanding	MMLU	Accuracy67.2	844
Code Generation	HumanEval (test)	--	701
Mathematical Reasoning	MATH	Accuracy36.1	535
Code Generation	MBPP (test)	--	411
Mathematical Reasoning	GSM8K	Accuracy (GSM8K)82.4	358
Logical reasoning	BBH	Accuracy52.7	249
Code Generation	MBPP	Pass@170	193

Showing 10 of 39 rows

Other info

Follow for update

@wizwand_team Discord