Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on RewardBench Safety Subset Perturbations 2

-0.629LE Score

Llama3-8B-IDRM

Updated 4mo ago

Evaluation Results

Method	Links
Llama3-8B-IDRM 2025.11		-0.629	-0.7	-0.032	-0.119	-0.73
Qwen2.5-72B-Instruct 2025.11		-0.09	0.007	0.231	-0.18	1.041
Starling-RM-34B 2025.11		-0.052	-0.031	-0.055	-0.001	-0.09
Qwen3-8B 2025.11		0.002	0.148	0.191	1.201	-0.004
Skywork-Reward-Gemma-2-27B 2025.11		0.029	-0.015	-0.003	-0.027	0.016
SOLAR-10.7B-Instruct-v1.0 2025.11		0.107	0.046	0.002	0.007	0.004
internlm2-20b-reward 2025.11		0.108	0.297	0.197	1.025	-0.082
Skywork-Reward-Gemma-2-27B-v0.2 2025.11		0.127	0.081	0.118	0.109	0.113
tulu-2-dpo-13b 2025.11		0.219	0.164	0.073	0.077	0.178
Llama-3.1-70B-Instruct 2025.11		0.344	0.179	0.169	1.47	-0.037
ArmoRM-Llama3-8B-v0.1 2025.11		0.388	-0.297	0.821	1.016	1.066
Skywork-Reward-V2-Llama-3.1-8B 2025.11		0.502	0.567	-0.003	0.092	0.613
Eurus-RM-7b 2025.11		0.535	0.558	0.13	0.02	0.525
internlm2-1.8b-reward 2025.11		0.537	0.548	0.22	0.223	0.669
UltraRM-13b 2025.11		0.537	0.582	0.25	0.154	0.58
Skywork-Reward-V2-Qwen3-8B 2025.11		0.543	0.558	0.12	0.127	0.628
Skywork-Reward-Llama-3.1-8B 2025.11		0.571	0.605	0.062	0.057	0.668
GRM-llama3-8B-sftreg 2025.11		0.604	0.641	0.221	0.292	0.809
GRM-Llama3-8B-rewardmodel-ft 2025.11		0.622	0.668	0.144	0.277	0.875
Skywork-Reward-Llama-3.1-8B-v0.2 2025.11		0.65	0.664	0.085	0.146	0.732
FsfairX-LLaMA3-RM-v0.1 2025.11		0.694	0.728	0.338	0.412	0.952
GRM-llama3-8B-distill 2025.11		0.701	0.663	0.242	0.427	0.873
URM-LLaMa-3.1-8B 2025.11		0.726	0.771	0.059	0.107	0.791
internlm2-7b-reward 2025.11		0.784	0.798	0.288	0.32	0.961
Llama-3-OffsetBias-RM-8B 2025.11		0.928	0.93	0.201	0.359	1.039
URM-LLaMa-3-8B 2025.11		1.112	1.05	0.563	0.725	1.264