Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Reward Modeling on MR2Bench Image

87.1Best-of-4 Accuracy

GPT-5

Updated 3mo ago

Evaluation Results

Method	Links
GPT-5 2026.04		87.1
Claude-Sonnet-4.5 2026.04		72.9
Gemini-2.5-Pro 2026.04		71.2
InternVL3-78B 2026.04		65
Molmo2-4B Multi-response RM 2026.04		62.5
Molmo2-4B 2026.04		61.7
Qwen3-VL-4B 2026.04		60.8
Qwen3-VL-32B 2026.04		60.8
Qwen3-VL-8B 2026.04		60.4
Molmo2-8B 2026.04		60
R1-Reward 2026.04		58.8
Qwen3-VL-4B Multi-response RM 2026.04		58.8
LLaVA-Critic 2026.04		56.3
InternVL3-8B 2026.04		55.4
IXC-2.5-Reward 2026.04		55
Skywork-VL-Reward 2026.04		52.9
Qwen2.5-VL-7B 2026.04		52.5
MM-RLHF-Reward 2026.04		45