Share your thoughts, 1 month free Claude Pro on usSee more

Human-Metric Correlation on EvalGen Out-of-Distribution

0.382Kendall's Tau

AutoMetrics

Updated 5mo ago

Evaluation Results

Method	Links
AutoMetrics 2025.12		0.382
AutoMetrics 2025.12		0.334
LLM-Judge 2025.12		0.272
DnA Eval 2025.12		0.232
Best Existing Metric 2025.12		0.193
DnA Eval 2025.12		0.174
LLM-Judge 2025.12		0.161
Finetuned LLM 2025.12		0.054
MetaMetrics 2025.12		-0.214