Learning to Answer Questions in Dynamic Audio-Visual Scenarios

About

In this paper, we focus on the Audio-Visual Question Answering (AVQA) task, which aims to answer questions regarding different visual objects, sounds, and their associations in videos. The problem requires comprehensive multimodal understanding and spatio-temporal reasoning over audio-visual scenes. To benchmark this task and facilitate our study, we introduce a large-scale MUSIC-AVQA dataset, which contains more than 45K question-answer pairs covering 33 different question templates spanning over different modalities and question types. We develop several baselines and introduce a spatio-temporal grounded audio-visual network for the AVQA problem. Our results demonstrate that AVQA benefits from multisensory perception and our model outperforms recent A-, V-, and AVQA approaches. We believe that our built dataset has the potential to serve as testbed for evaluating and promoting progress in audio-visual scene understanding and spatio-temporal reasoning. Code and dataset: http://gewu-lab.github.io/MUSIC-AVQA/

Guangyao Li, Yake Wei, Yapeng Tian, Chenliang Xu, Ji-Rong Wen, Di Hu• 2022

Related benchmarks

Task	Dataset	Result
Audio-Visual Question Answering	MUSIC-AVQA 1.0 (test)	AV Localis Accuracy76.38	96
Audio-Visual Question Answering	MUSIC-AVQA (test)	Acc (Avg)71.59	76
Audio Question Answering	MUSIC-AVQA 1.0 (test)	Counting Accuracy78.18	43
Audio-Visual Question Answering	MUSIC-AVQA	Accuracy71.5	33
Audio-Visual Question Answering	MUSIC-AVQA balanced v2.0 (test)	Total Accuracy71.02	28
Audio-Visual Question Answering	MUSIC-AVQA Bias v2.0 (test)	Total Accuracy73.07	28
Audio-Visual Question Answering	MUSIC-AVQA-R (test)	Audio QA Count (Head)56.4	26
Overall Audio-Visual Question Answering	MUSIC-AVQA (test)	Overall Accuracy71.52	21
Audio-Video Question Answering	MUSIC-AVQA	AV Temporal Acc0.671	19
Audio Question Answering	MUSIC-AVQA (test)	Accuracy (Avg)74.06	17

Showing 10 of 18 rows

Other info

Code

Follow for update

@wizwand_team Discord