JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

About

This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG). Based on the powerful Diffusion Transformer (DiT) architecture, JavisDiT simultaneously generates high-quality audio and video content from open-ended user prompts in a unified framework. To ensure audio-video synchronization, we introduce a fine-grained spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and fine-grained spatio-temporal priors, guiding the synchronization between the visual and auditory components. Furthermore, we propose a new benchmark, JavisBench, which consists of 10,140 high-quality text-captioned sounding videos and focuses on synchronization evaluation in diverse and complex real-world scenarios. Further, we specifically devise a robust metric for measuring the synchrony between generated audio-video pairs in real-world content. Experimental results demonstrate that JavisDiT significantly outperforms existing methods by ensuring both high-quality generation and precise synchronization, setting a new standard for JAVG tasks. Our code, model, and data are available at https://javisverse.github.io/JavisDiT-page/.

Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Jiebo Luo, Ziwei Liu, Hao Fei, Tat-Seng Chua• 2025

Related benchmarks

Task	Dataset	Result
Joint audio-video generation	JavisBench 1.0 (test)	AV-IB0.197	18
Text-to-Audio-Video Generation	Verse-Bench	MS0.18	16
Text-to-Sounding-Video Generation	AVSync15	FVD878.7	13
Joint audio-video generation	JavisBench	Audio-Video Consistency (AV-IB)19.7	12
Multi-shot Audio-Visual Generation	MAVINSet subjective 20 samples	AVQ3.4	11
Multi-shot Audio-Visual Generation	MAVINSet high-fidelity benchmark 1K-sample (test)	FVD512.6	11
Audio-visual generation	VGGSound SS	FVD637.5	10
Audio-visual generation	Landscape	FVD668.9	10
Joint Video-Audio Generation	Landscape (test)	FVD94.2	9
Text-to-Sounding-Video Generation	AVSync15 (test)	Visual Quality (VQ)2.47	7

Showing 10 of 20 rows

Other info

Follow for update

@wizwand_team Discord