NoWag: A Unified Framework for Shape Preserving Compression of Large Language Models

About

Large language models (LLMs) exhibit remarkable performance across various natural language processing tasks but suffer from immense computational and memory demands, limiting their deployment in resource-constrained environments. To address this challenge, we propose NoWag (Normalized Weight and Activation Guided Compression), a unified framework for one-shot shape preserving compression algorithms. We apply NoWag to compress Llama-2 (7B, 13B, 70B) and Llama-3 (8B, 70B) models using two popular shape-preserving techniques: vector quantization (NoWag-VQ) and unstructured/semi-structured pruning (NoWag-P). Our results show that NoWag-VQ significantly outperforms state-of-the-art one-shot vector quantization methods, while NoWag-P performs competitively against leading pruning techniques. These findings highlight underlying commonalities between these compression paradigms and suggest promising directions for future research. Our code is available at https://github.com/LawrenceRLiu/NoWag

Lawrence Liu, Inesh Chakrabarti, Yixiao Li, Mengdi Wang, Tuo Zhao, Lin F. Yang• 2025

Related benchmarks

Task	Dataset	Result
Language Modeling	WikiText2	Perplexity15.02	3785
Commonsense Reasoning	WinoGrande	--	1442
Commonsense Reasoning	HellaSwag	HellaSwag Accuracy59.31	711
Question Answering	ARC Challenge	Accuracy (ARC)35.53	598
Question Answering	ARC Easy	--	597
Multitask Language Understanding	MMLU	Accuracy78.93	520
Question Answering	PIQA	Accuracy74.42	505
Sentence Completion	HellaSwag	Accuracy70.08	364
Mathematical Reasoning	MathQA	Accuracy23.73	354
Language Modeling	WikiText2	Perplexity5.17	277

Showing 10 of 28 rows

Other info

Follow for update

@wizwand_team Discord