DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

About

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

Xu Guo, Fulong Ye, Qichao Sun, Liyang Chen, Bingchuan Li, Pengze Zhang, Jiawei Liu, Songtao Zhao, Qian He, Xiangwang Hou• 2026

Related benchmarks

Task	Dataset	Result
Text-to-Speech	Seed-TTS EN	WER31.76	32
Multimodal Customization	OC-Bench (test)	Face-Sim0.789	12
Audio-visual generation	R2AV 1.0 (test)	AES0.618	7
User Study	R2AV	Text-Video Alignment3.86	6
Audio-driven animation	IDBench-Omni RA2V 1.0	AES0.591	3
Controlled Video Editing	RV2AV IDBench-Omni 1.0 (test)	AES0.584	3
Multi-shot Generation	multi-cultural benchmark (R2V)	Temporal Alignment (TA)16.81	2

Showing 7 of 7 rows

Other info

GitHub

Follow for update

@wizwand_team Discord