Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Reward Modeling on VideoRewardBench

68.2Macro Pairwise Accuracy

GPT-5

Updated 3mo ago

Evaluation Results

Method	Links
GPT-5 2026.04		68.2
Claude-Sonnet-4.5 2026.04		67.5
Molmo2-4B Multi-response RM 2026.04		66.3
Qwen3-VL-32B 2026.04		65.8
Qwen3-VL-4B 2026.04		64.9
Qwen3-VL-4B Multi-response RM 2026.04		64.9
Gemini-2.5-Pro 2026.04		63.2
Skywork-VL-Reward 2026.04		62.9
Qwen3-VL-8B 2026.04		62
R1-Reward 2026.04		61.2
InternVL3-78B 2026.04		58.5
Molmo2-4B 2026.04		58.2
InternVL3-8B 2026.04		57.9
Molmo2-8B 2026.04		57.1
IXC-2.5-Reward 2026.04		57.1
Qwen2.5-VL-7B 2026.04		55.3
MM-RLHF-Reward 2026.04		52.2
LLaVA-Critic 2026.04		14.7