Vicuna Bench

Benchmarks

Task Name	Dataset Name	SOTA Result
LLM-as-a-judge evaluation	Vicuna Bench	Pearson Correlation (r)0.605	16
Feedback Evaluation Alignment	Vicuna Bench	Kendall's Tau0.423	6
Feedback evaluation	Vicuna Bench (test)	Kendall's Tau0.468	5

Showing 3 of 3 rows