human judgment dataset

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Human Correlation Analysis	Refined human judgment dataset human vs model-generated	SO-S0.995		3
Human Correlation Analysis	Original human judgment dataset	Generation Perplexity0.643		3

Showing 2 of 2 rows