Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on EvalBiasBench

0.75Accuracy

Qwen3-14B

Updated 4mo ago

Evaluation Results

Method	Links
Qwen3-14B 2026.01		0.75
GPT-4o 2026.01		0.7
RM-Distiller 2026.01		0.638
RM-Distiller 2026.01		0.575
BT Classifier 2026.01		0.475
Qwen2.5-3B-Instruct 2026.01		0.444
BT Classifier 2026.01		0.3