Share your thoughts, 1 month free Claude Pro on usSee more

LLM-as-a-Judge Performance on MT-Bench (test)

2.24StdDev

DI

Updated 4mo ago

Evaluation Results

Method	Links
DI 2024.10		2.24	82.26
CalibraEval 2024.10		2.89	82.29
GPT4o 2024.10		3.23	82.27
DC 2024.10		3.57	81.93
Pride 2024.10		3.84	82.1
CC 2024.10		4.72	81.05
CC 2024.10		4.84	81.23
CalibraEval 2024.10		4.99	81.25
CalibraEval 2024.10		5.2	72.98
CalibraEval 2024.10		5.2	72.98
CalibraEval 2024.10		5.22	70.63
CalibraEval 2024.10		5.22	70.63
Pride 2024.10		5.24	81.23
Qwen-72B 2024.10		5.76	81.32
DI 2024.10		5.79	80.82
Pride 2024.10		6.01	72.86
Pride 2024.10		6.01	72.86
CalibraEval 2024.10		6.26	68.64
CalibraEval 2024.10		6.26	68.64
CalibraEval 2024.10		6.67	67.86
CC 2024.10		6.75	65.09
DC 2024.10		6.76	80.52
DI 2024.10		7.01	69.84
ChatGPT 2024.10		7.66	72.67
ChatGPT 2024.10		7.66	72.67
DC 2024.10		8.23	68.48
CC 2024.10		8.7	69.09
DI 2024.10		9.42	66.79
DC 2024.10		9.72	67.74
Pride 2024.10		11.64	70.63
Pride 2024.10		11.64	70.63
Pride 2024.10		12.63	67.56
DI 2024.10		13.72	67.47
Llama-3.1-8B 2024.10		14.73	67.58
Pride 2024.10		16.31	65.29
Pride 2024.10		16.31	65.29
CC 2024.10		16.31	70.49
Llama-3-8B 2024.10		16.42	67.08
Llama-3-8B 2024.10		16.42	67.08
Qwen-14B 2024.10		17.24	65.61
Qwen-14B 2024.10		17.24	65.61
DI 2024.10		19.09	62.18
DC 2024.10		20.23	68.67
DC 2024.10		20.86	64.6
CC 2024.10		26.47	58.21