MUSE: Resolving Manifold Misalignment in Visual Tokenization via Topological Orthogonality

About

Unified visual tokenization faces a fundamental trade-off between high-fidelity pixel reconstruction (spatial equivariance) and semantic abstraction (conceptual invariance). We attribute this conflict to Manifold Misalignment: naive joint optimization induces opposing gradients, creating a zero-sum game between reconstruction and perception. To address this, we propose MUSE, a framework based on Topological Orthogonality. By treating Structure as an orthogonal bridge, MUSE decouples optimization within Transformers: structural gradients refine attention topology, while semantic gradients update feature values. This turns destructive interference into Mutual Reinforcement. Experiments show that MUSE breaks the trade-off, achieving state-of-the-art generation quality (gFID 3.08) and surpassing its teacher InternViT-300M in linear probing (85.2\% vs. 82.5\%), demonstrating that structurally aligned reconstruction can enhance semantic perception. Code is available at https://github.com/PanqiYang1/MUSE.

Panqi Yang, Haodong Jing, Jiahao Chao, Tingyan Xiang, Li Lin, Yao Hu, Yang Luo, Yongqiang Ma• 2026

Related benchmarks

Task	Dataset	Result
Multimodal Understanding	MMBench	--	887
Multimodal Understanding	MM-Vet	MM-Vet Score62.9	664
Multimodal Understanding	SEED-Bench	Accuracy75.5	571
Text-to-Image Generation	GenEval	GenEval Score88	459
Diagram Understanding	AI2D	Accuracy80.2	377
Multimodal Understanding	MMMU	MMMU Score49.8	232
Visual Perception	MMVP	Accuracy74.8	118
Image Editing	ImgEdit	Overall Score4.08	101
Multimodal Perception	MME Perception	Perception Score1.65e+3	99
Text-to-Image Generation	WISE	WISE Score0.65	67

Showing 10 of 14 rows

Other info

Follow for update

@wizwand_team Discord