Conversational Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Pairwise Preference Evaluation	Conversational Evaluation Suite AI companionship and Role-play (test)	Win Rate95.5		13

Showing 1 of 1 rows