AVUT

Benchmarks

Task Name	Dataset Name	SOTA Result
Audio-Visual Understanding	AVUT AV-Human	Accuracy0.7834	12
Audio-Visual Understanding	AVUT	Score85.6	8
Audio-Visual QA	AVUT	Accuracy66.57	6
Omni-modal Understanding	AVUT-Human	Overall Score78.6	3

Showing 4 of 4 rows