SOTA Video Multimodal Understanding on VideoMMMU and PapersWithCode

79.4Accuracy

Gemini-2.5-Pro (minimal)

Updated 1mo ago

Evaluation Results

Method	Links
Gemini-2.5-Pro (minimal) 2026.03		79.4
Seed-1.5-VL 2026.03		72.1
Pixelis (Qwen3-VL-8B-Instruct) 2026.03		69.8
Qwen3-VL-30B-A3B-Instruct 2026.03		68.7
Pixelis: SFT + RFT 2026.03		68.5
Pixelis: SFT + TTRL 2026.03		68.5
Pixelis: RFT + TTRL 2026.03		67.8
PRM (process reward; tools; 8B) 2026.03		67.6
Pixelis: SFT only 2026.03		67.4
Late-fusion 2026.03		67
Step Self-Consistency (step-level) 2026.03		66.9
RA-TTA (retrieval-augmented) 2026.03		66.8
Pixel Reasoner (Qwen3-VL-8B-Instruct) 2026.03		66.5
Pixelis: RFT only 2026.03		66.5
Realistic TTA of VLMs (StatA) 2026.03		66.2
Pixelis: TTRL only 2026.03		66.1
Qwen3-VL-8B-Instruct 2026.03		65.3
Qwen3-VL 2026.05		65.3
RV Self-Consistency (answer-only) 2026.03		65.1
GPT-5 (minimal) 2026.03		61.6
GPT-4o 2026.01		61.2
Gemini-1.5-Pro 2026.01		60.6
InternVL3.5 2026.05		54.9
Video-R1 2026.03		52.4
NEO-ov 2026.05		51.6
SDRL 2026.03		51.3
SDRL 2026.03		51.1
VideoRFT 2026.03		50.6
Qwen-VL-2.5-7B-Ours 2026.01		50
MiniCPM-V2.6-8B 2026.01		49.8
Video-R1 2026.03		49.5
Qwen2.5-VL-7B 2026.03		49.3
VideoRFT 2026.03		48.5
Qwen2.5-VL-7B 2026.03		48.4
Video-R1-7B 2026.01		48.1
Qwen2.5-VL-7B 2026.03		47.8
Video-R1 2026.03		47.4
VideoRFT 2026.03		47.4
Qwen-VL-2.5-7B-GRPO 2026.01		47.3
Qwen-VL-2.5-7B-SFT 2026.01		46
InternVL2.5-8B 2026.01		44.2
R1-OneVision-7B 2026.01		44.1
Qwen-VL-2.5-7B 2026.01		43.9
R1-VL-7B 2026.01		42.9
InternVL3.5 2026.05		42.7
NEO-ov 2026.05		42.3
Qwen3-VL 2026.05		41.9
Vision-R1-7B 2026.01		39.7
LLaVA-OneVision-7B 2026.03		33.8
LLaVA-OneVision-7B 2026.01		31.2
LongVA-7B 2026.03		23.9
VILA-1.5-8B 2026.01		20.8
VILA-1.5-8B 2026.03		20.8