RM-Bench

Benchmarks

Task Name	Dataset Name	SOTA Result
Reward Modeling	RM-Bench	Accuracy96	137
Reward Modeling Evaluation	RM-Bench	Chat Score85.3	99
Reward Modeling	RM-Bench (test)	Chat Score84.11	72
Reward Modeling	RM Bench Code	EF0.154	52
Reward Modeling	RM-Bench Chat	Accuracy78.5	42
Reward Modeling	RM-Bench Chat Hard	Accuracy83.3	34
Reward Modeling	RM-Bench Hard	Average Accuracy0.7091	32
Reward Modeling	RM-Bench v1.0 (test)	Overall Score74.3	29
Reward Modeling Suitability Evaluation	RM Bench Math	EF-0.077	26
Reward Modeling Suitability Evaluation	RM Bench Safety-accept	EF0.698	26
Reward Model Suitability Audit	RM Bench Chat	EF0.313	26
Reward Modeling	RM-Bench Chat subset Normal	Accuracy86	16
Reward Modeling	RM-Bench (full)	Chat Score83	11
Preference Prediction	RM-Bench	Accuracy87.8	10
Reward Modeling	RM-Bench Normal	Accuracy80	10
Reward Modeling	RM-Bench Easy	Accuracy92.2	10
Reward Modeling	RM-Bench 1k	Positional Consistency73.5	8

Showing 17 of 17 rows