SOTA Multimodal Reward Modeling benchmarks and papers with code

Benchmarks

Dataset Name	SOTA Method	Metric
VL-RewardBench	DT2IT-MRM (Qwen3-VL)	Accuracy83.5	102	3mo ago
Multimodal RewardBench		Accuracy60.7	50	3mo ago
RewardBench Multimodal	R1-Reward	Safety Score99.6	44	2mo ago
RewardBench MM-RLHF	BaseReward (Qwen2.5-VL)	MCQ Score95.74	20	3mo ago
MR2Bench Video	Molmo2-4B Multi-response RM	Best-of-4 Accuracy50.7	18	3mo ago
VideoRewardBench	GPT-5	Macro Pairwise Accuracy68.2	18	3mo ago
MR2Bench Image	GPT-5	Best-of-4 Accuracy87.1	18	3mo ago
MM-RLHF-RewardBench	Molmo2-4B Multi-response RM	Pairwise Accuracy92.4	18	3mo ago
MM-RLHF-Reward Bench	Proxy-GRM-RL	Accuracy82.94	14	4mo ago
VL-RewardBench, Multimodal RewardBench, and MM-RLHF-RewardBench Aggregate	DT2IT-MRM	Accuracy84.1	13	3mo ago
Multimodal Reward Bench	Proxy-GRM-RL	Reward Bench Score85.62	12	4mo ago
PhyCritic-Bench	Gemini-2.5-Pro	Overall Score78.2	8	4mo ago
RewardBench 2	SW-RM-V2-LLaMA3.1-8B	Safety Score96.7	5	4mo ago
UniReward In-Domain (test)	UniRM	Quality Score99.3	5	4mo ago

Showing 14 of 14 rows