Share your thoughts, 1 month free Claude Pro on usSee more

LLM-as-a-Judge Performance on RewardBench (test)

2.72Std Dev (Reward)

CalibraEval

Updated 3mo ago

Evaluation Results

Method	Links
CalibraEval 2024.10		2.72	64.25
Pride 2024.10		4.18	64.09
CalibraEval 2024.10		5.51	67.13
CalibraEval 2024.10		6.48	68.12
Pride 2024.10		7.51	66.54
Pride 2024.10		8.54	66.36
Qwen-14B 2024.10		11.63	63.14
Llama-3-8B 2024.10		15.01	65.79
ChatGPT 2024.10		16.79	65.27