PreferenceBench

Benchmarks

Task Name	Dataset Name	SOTA Result
LLM-as-a-Judge	PreferenceBench	Accuracy90.71	59
LLM-as-a-Judge	PreferenceBench	Accuracy90.2	21
LLM-as-a-Judge Evaluation Consistency	PreferenceBench	Kappa79.73	4

Showing 3 of 3 rows