MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

About

Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.

Lulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao• 2026

Related benchmarks

Task	Dataset	Result
Visual Question Answering	VizWiz	Accuracy71.5	1820
Visual Question Answering	TextVQA	Accuracy77	1453
Text-based Visual Question Answering	TextVQA	Accuracy82.6	962
Science Question Answering	ScienceQA	Accuracy85.7	791
Optical Character Recognition	OCRBench	Score72.8	433
Multimodal Understanding	SEED	Accuracy69.5	216
Multimodal Optical Character Recognition	OCRBench	Recognition Score84.6	66
Vision Understanding	MMMU	Accuracy49.9	65
Scientific Question Answering	ScienceQA	Accuracy88.6	61
Multimodal Understanding	MMMU	Accuracy (MMMU)46.7	52

Showing 10 of 15 rows

Other info

Follow for update

@wizwand_team Discord