FURINA-Bench

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Role-playing Dialogue Evaluation	FURINA-Bench English	Context Reliance42.99		15
Role-playing Dialogue Evaluation	FURINA-Bench Chinese	Context Reliance71.39		12

Showing 2 of 2 rows