Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Benchmarking on MMMU

78.1Accuracy

Qwen3-VL-32B-Thinking

Updated 3mo ago

Evaluation Results

Method	Links
Qwen3-VL-32B-Thinking 2026.01		78.1
Qwen3-VL-8B-Thinking 2026.01		74.1
EvoCUA-32B 2026.01		68.11
EvoCUA-8B 2026.01		62.11
OpenCUA-72B 2026.01		60.67
EvoCUA-OpenCUA-72B 2026.01		59.22
INF-LLaVA* 2024.07		37.2
INF-LLaVA 2024.07		37
LLaVA1.5 2024.07		36.4
ConvLLaVA 2024.07		35.8
DeepStack-L-HD 2024.07		35.6
AnyGPT 2024.07		30.6
GenLLaVA 2024.07		29.7
GILL 2024.07		28.8
MGIE 2024.07		25.6