Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

About

Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.

Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Sch\"olkopf• 2023

Related benchmarks

Task	Dataset	Result
Code Generation	HumanEval	--	1048
Mathematical Reasoning	GSM8K (test)	Accuracy71.79	816
Image Classification	Food-101	Accuracy78.42	590
Image Classification	Flowers102	Accuracy98.59	558
Image Classification	RESISC45	Accuracy74.7	539
Multi-turn Dialogue Evaluation	MT-Bench	--	532
Natural Language Understanding	GLUE (dev)	SST-2 (Acc)92.5	529
Mathematical Reasoning	MATH (test)	Overall Accuracy28.98	433
Natural Language Understanding	GLUE (test)	SST-2 Accuracy96.44	416
Image Classification	CIFAR100	Accuracy87.84	378

Showing 10 of 32 rows

Other info

Follow for update

@wizwand_team Discord