DynSess-Eval

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Role-playing	DynSess-Eval Human Evaluation 1.0 (test)	Average Score3.38		10
Evaluator Alignment with Human Judgments	DynSess-Eval 8 personas (test)	Role Consistency Rank Acc67		7

Showing 2 of 2 rows