STS-B

Benchmarks

Task Name	Dataset Name	SOTA Result
Semantic Textual Similarity	STS-B	Spearman's Rho (x100)92.9	158
Semantic Similarity	STS-B (test)	Semantic Consistency80.22	18
Imbalanced Regression	STS-B-DIR Few-shot (test)	MSE0.781	14
Imbalanced Regression	STS-B-DIR Medium-shot (test)	MSE0.899	14
Imbalanced Regression	STS-B-DIR Many-shot (test)	MSE0.795	14
Imbalanced Regression	STS-B-DIR All (test)	MSE0.892	14
Regression	STS-B-DIR Few-shot	MSE0.781	14
Regression	STS-B-DIR Medium-shot	MSE0.899	14
Regression	STS-B-DIR Many-shot	MSE0.795	14
Regression	STS-B DIR (All)	MSE0.892	14
Semantic Textual Similarity	STS-B (test)	PICP95.94	12
Semantic Textual Similarity	STS-B	Accuracy0.595	10
Semantic Textual Similarity	STS-B	CCC61.08	9
Semantic Textual Similarity	Multilingual STS-B (val)	Spearman Correlation77.48	8
Text Similarity	STS-B (test)	Kendall's Tau (STS-B)76.5	6
Semantic Textual Similarity	STS-B (dev)	Pearson Correlation0.918	6
Text Similarity Regression	STS-B DIR (test)	MSE (All)0.877	6
Uncertainty Estimation	STS-B DIR Few	NLL2.152	5
Uncertainty Estimation	STS-B-DIR Medium	NLL2.754	5
Uncertainty Estimation	STS-B-DIR Many	NLL1.81	5
Uncertainty Estimation	STS-B DIR (All)	NLL1.996	5
Regression	STS-B (test)	Spearman Corr (%)88.94	5
Semantic Textual Similarity	STS-B	Latency (ms)22.63	4
Natural Language Processing	STS-B (test)	Accuracy89.52	3
Intrinsic Bias Evaluation	STS-B	StereoSet Score54.53	3

Showing 25 of 28 rows