Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling Suitability Evaluation on RM Bench Safety-accept

0.698EF

ArmoRM-Llama3-8B-v0.1

Updated 4mo ago

Evaluation Results

Method
ArmoRM-Llama3-8B-v0.1 2025.11	0.698	-0.118	-0.176	-0.816	0.519	0.357	-0.297	0.413	1.179	1.193
GRM-llama3-8B-distill 2025.11	0.417	0.291	0.691	0.422	0.462	-0.141	0.004	0.143	1.047	0.569
GRM-llama3-8B-sftreg 2025.11	0.359	0.228	0.47	0.365	0.484	0.078	0.181	0.171	0.632	0.284
URM-LLaMa-3-8B 2025.11	0.224	0.137	0.893	0.897	0.435	0.67	0.18	0.291	1.308	1.548
FsfairX-LLaMA3-RM-v0.1 2025.11	0.203	0.256	0.871	0.578	0.496	0.108	0.11	0.313	1.106	0.603
Qwen3-8B 2025.11	0.198	0.008	-0.301	0.045	0.049	-0.102	0.048	0.188	1.123	-0.102
UltraRM-13b 2025.11	0.187	-0.013	0.577	1.111	0.462	-0.278	-0.073	0.08	0.343	0.221
GRM-Llama3-8B-rewardmodel-ft 2025.11	0.16	0.277	0.421	0.174	0.564	0.226	-0.149	0.242	0.582	0.54
Eurus-RM-7b 2025.11	0.149	-0.002	-0.132	0.016	0.242	-0.019	0.029	0.172	0.381	0.296
Skywork-Reward-Gemma-2-27B 2025.11	0.126	-0.005	0.025	0.186	0.021	-0.107	-0.085	0.042	0.061	-0.075
Skywork-Reward-V2-Llama-3.1-8B 2025.11	0.083	0.008	0.135	0.125	0.183	0.12	0.139	0.145	0.222	0.328
Skywork-Reward-V2-Qwen3-8B 2025.11	0.071	-0.189	0.2	0.346	0.287	0.164	0.102	0.15	0.174	0.323
Skywork-Reward-Llama-3.1-8B 2025.11	0.065	0.044	0.247	0.292	0.262	-0.043	-0.233	0.244	0.09	0.215
Llama-3.1-70B-Instruct 2025.11	0.024	0.14	0.039	-0.092	0.312	-0.144	0.029	0.182	1.277	0.087
Qwen2.5-72B-Instruct 2025.11	-0.054	0.148	-0.047	0.197	0.266	-0.07	0.008	0.231	0.08	0.046
Skywork-Reward-Gemma-2-27B-v0.2 2025.11	-0.09	-0.081	-0.035	0.012	-0.057	0.033	0.004	-0.037	-0.126	-0.042
Skywork-Reward-Llama-3.1-8B-v0.2 2025.11	-0.103	0.16	0.277	0.257	0.383	0.075	-0.247	0.243	0.114	0.307
tulu-2-dpo-13b 2025.11	-0.13	-0.018	0.227	0.236	0.125	-0.679	-0.226	0.002	-0.233	-0.626
SOLAR-10.7B-Instruct-v1.0 2025.11	-0.17	-0.132	0.065	0.163	0.245	-0.223	0.421	-0.094	0.33	-0.171
URM-LLaMa-3.1-8B 2025.11	-0.19	-0.09	0.119	0.201	0.225	0.282	-0.324	0.033	0.335	0.434
Llama-3-OffsetBias-RM-8B 2025.11	-0.426	-0.007	0.464	0.053	0.281	-0.37	-1.252	0.552	0.994	0.317
Llama3-8B-IDRM 2025.11	-0.433	0.236	-0.361	-0.627	0.021	-0.2	0.423	-0.439	-0.704	-0.296
Starling-RM-34B 2025.11	-0.453	-0.13	0.164	-0.362	0.079	0.284	0.135	0.183	0.169	-0.214
internlm2-1.8b-reward 2025.11	-0.595	-0.432	0.035	-0.244	0.003	-0.996	-0.398	-0.459	-0.014	-0.683
internlm2-7b-reward 2025.11	-0.599	-0.222	-0.04	-0.072	0.03	-0.775	-0.463	-0.489	0.096	-0.581
internlm2-20b-reward 2025.11	-1.003	-0.525	0.191	-0.368	0.047	-0.478	-0.297	-0.147	0.025	-0.684