LLM-as-a-Judge Calibration

Benchmarks

Dataset Name	Metric
Arena100K (test)	Test Risk (MSE)0.227	7	1mo ago
SummEval (test)	Test Risk (MSE)0.043	7	1mo ago
LLMBar (test)	Test Risk (MSE)0.194	7	1mo ago
RewardBench (test)	Test Risk (MSE)0.022	7	1mo ago

Showing 4 of 4 rows