LLM-as-a-Judge Evaluation Consistency

Benchmarks

Dataset Name	SOTA Method	Metric
RewardBench	CalibraEval	Kappa83.25	36	4mo ago
MTBench	CalibraEval	Kappa71.88	6	4mo ago
PreferenceBench	CalibraEval	Kappa79.73	4	4mo ago

Showing 3 of 3 rows