Audio Visual Question Answering on Music-AVQA (Robustness Evaluation)

85.15Music-AVQA Clean Accuracy

Qwen3-Omni-30B

Updated 3mo ago

Evaluation Results

Method
Qwen3-Omni-30B 2026.04	85.15	83.23	-	9.58	15.16
Qwen2.5-Omni-7B 2026.04	82.99	80.91	-	18.83	18.6
Gemini-3.1-Flash-Lite-preview 2026.04	81.32	80.01	-	10.54	16.12
Negative Language Modeling Loss 2026.01	80.7	74.3	6.4	-	-
Encoder-Based Cosine Similarity Loss 2026.01	80.7	74.7	6	-	-
Vision Attention Suppression Loss 2026.01	80.7	77.7	3	-	-
Audio Attention Amplification Loss 2026.01	80.7	76.9	3.8	-	-
Attention Randomization Loss 2026.01	80.7	75.8	4.9	-	-
Hidden-State Similarity Loss 2026.01	80.7	76.6	4.1	-	-
Combined Loss (SOUNDBREAK) 2026.01	80.7	75	5.7	-	-
Gemini-2.5-Flash-Lite 2026.04	80.68	75.4	-	11.75	19.68
Gemini-3.1-Flash-Lite-preview 2026.04	71.97	70.62	-	2.14	6.84
Gemini-2.5-Flash-Lite 2026.04	68.99	67.24	-	2.01	4.52
Qwen2.5-Omni-7B 2026.04	66.94	56.18	-	4.34	15.51
PandaGPT 2026.04	64.41	64.46	-	26.73	26.96
Gemini-3.1-Flash-Lite-preview 2026.04	62.63	49.96	-	16.83	34.21
Qwen3-Omni-30B 2026.04	61.54	55.09	-	2.15	8.11
Gemini-2.5-Flash-Lite 2026.04	60.15	47.49	-	17.99	33.26
Qwen2.5-Omni-7B 2026.04	57.01	43.76	-	22.2	38.62
Qwen3-Omni-30B 2026.04	56.57	53.96	-	18.48	33.33
ChatBridge 2026.04	51.38	50	-	27.47	30.09
ChatBridge 2026.04	39.99	34.38	-	15.83	25.55
ChatBridge 2026.04	37.64	35.21	-	23.68	24.53
PandaGPT 2026.04	35.98	35.93	-	10.04	10.98
PandaGPT 2026.04	34.93	34.93	-	29.02	29.12