Share your thoughts, 1 month free Claude Pro on usSee more

Human-Metric Correlation on RealHumanEval (Out-of-Distribution)

0.16Kendall's Tau

AutoMetrics

Updated 5mo ago

Evaluation Results

Method	Links
AutoMetrics 2025.12		0.16
DnA Eval 2025.12		0.152
AutoMetrics 2025.12		0.145
Best Existing Metric 2025.12		0.138
DnA Eval 2025.12		0.071
LLM-Judge 2025.12		0.069
Finetuned LLM 2025.12		0.049
MetaMetrics 2025.12		0.025
LLM-Judge 2025.12		0.025