LLM-to-LLM Evaluation

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
LLM Judge Evaluation	LLM-to-LLM Evaluation Reference: GPT-5.2	Global Correlation (r)0.84		2

Showing 1 of 1 rows