Dialogue Evaluation on Amazon Topical-Chat

0.806Naturalness (Pearson r)

MILE-RefHumEval

Updated 4mo ago

Evaluation Results

Method	Links
MILE-RefHumEval 2026.02		0.806	0.75	0.805	0.739	0.746	0.683	0.863	0.813	0.692	0.612
G-Eval 2026.02		0.549	0.565	0.594	0.605	0.627	0.631	0.531	0.551	0.575	0.588