Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models

About

Recent advancements in multimodal reasoning have largely overlooked the audio modality. We introduce Audio-Reasoner, a large-scale audio language model for deep reasoning in audio tasks. We meticulously curated a large-scale and diverse multi-task audio dataset with simple annotations. Then, we leverage closed-source models to conduct secondary labeling, QA generation, along with structured COT process. These datasets together form a high-quality reasoning dataset with 1.2 million reasoning-rich samples, which we name CoTA. Following inference scaling principles, we train Audio-Reasoner on CoTA, enabling it to achieve great logical capabilities in audio reasoning. Experiments show state-of-the-art performance across key benchmarks, including MMAU-mini (+25.42%), AIR-Bench chat/foundation(+14.57%/+10.13%), and MELD (+8.01%). Our findings stress the core of structured CoT training in advancing audio reasoning.

Zhifei Xie, Mingbao Lin, Zihang Liu, Pengcheng Wu, Shuicheng Yan, Chunyan Miao• 2025

Related benchmarks

Task	Dataset	Result
Audio Reasoning	MMAR	Average Accuracy58.9	82
Audio Reasoning	MMAR (test)	Average Score40.5	57
Audio Question Answering	MMAR	Average Score36.42	55
Audio Understanding	MMAU v05.15.25 (test-mini)	Sound Score67.87	54
Audio Understanding	MMAU v05.15.25 (test)	Sound Score67.3	53
Audio Understanding	MMSU	Perception Score40.73	37
Audio Understanding	MMAU (test)	--	31
Multimodal Audio Understanding	MMAU mini v05.15.25 (test)	Sound Accuracy67.9	25
Multimodal Audio Reasoning	MMAR	Mean Score36.8	22
Audio Understanding	MMAU mini original (test)	Accuracy (Sound Domain)60.06	21

Showing 10 of 24 rows

Other info

Follow for update

@wizwand_team Discord