Reward Modeling

Benchmarks

Dataset Name	SOTA Method	Metric
RewardBench	Oracle Ensemble	Safety Score96.7	284	18d ago
RewardBench	Skywork-Reward-V2-Llama-3.1-8B-40M	Accuracy97.8	166	3mo ago
RM-Bench	Skywork-Reward-V2-Llama-3.1-8B-40M	Accuracy96	137	1mo ago
RMB	Skywork-Reward-V2-Llama-3.1-8B-40M	Accuracy89.3	120	3mo ago
JudgeBench	OpenRS	Accuracy93.3	117	1mo ago
RewardBench 2	Rubric-ARM-8B + Eval-Skill	Precise IF Score89.89	90	1mo ago
RewardBench v1.0 (test)	Skywork-Reward-V2-Llama-3.1-8B-40M	Average Score0.978	89	4mo ago
RewardBench Focus 2	Rubric-ARM-voting@5	Accuracy90.3	82	4mo ago
RewardBench v2		Accuracy92.1	72	4mo ago
RM-Bench (test)	Eval-Skill (workflow-only)	Chat Score84.11	72	1mo ago
PPE-Preference	Skywork-Reward-V2-Llama-3.1-8B-40M	Accuracy79.8	72	1mo ago
RewardBench Precise IF 2		Accuracy57.5	70	4mo ago
RewardBench v2 (test)	Skywork-Reward-V2-Llama-3.1-8B-40M	Average Score86.5	67	2mo ago
HelpSteer (test)	ILDE	MAE0.077	65	2mo ago
HelpSteer 3		Accuracy83.15	62	1mo ago
RewardBench Average 2	FLIP	Accuracy39.7	52	4mo ago
RewardBench Math 2	Pointwise Rating	Accuracy35.7	52	4mo ago
RM Bench Code	Skywork-Reward-Gemma-2-27B	EF0.154	52	4mo ago
Reward Bench Math	internlm2-20b-reward	EF0.305	52	4mo ago
Aggregate of 7 benchmarks (HelpSteer3, Reward Bench V2, SCAN-HPD, HREF, LitBench, WQ_Arena, WPB)		Overall Accuracy74.56	45	4mo ago
PPE Correctness	SAVE	Accuracy71.2	45	1mo ago
RM-Bench Chat		Accuracy78.5	42	1mo ago
RewardBench Chat		Accuracy96.4	42	1mo ago
RewardBench (full)	HyRe (best weight oracle)* + Skywork-Llama-3.1-8B	Chat Score99.2	41	2mo ago
PPE Correlation	Skywork-Reward-V2-Llama-3.1-8B-40M	Correlation87.2	40	4mo ago

Showing 25 of 229 rows

...