English

Benchmarks

Task Name	Dataset Name	SOTA Result
Bilingual Response Generation	English en	QA-F154.1	24
Logical Reasoning	English	BPA98.8	24
Text-To-Speech	English (test)	WER0.0165	21
Helpfulness prediction	English user-disjoint	Main Score63.6	20
General Language Evaluation	English lm-evaluation-harness	ARC Easy Acc (Norm)0.819	16
Dependency Parsing	English (en) (test)	LAS95.33	16
Incremental BPE Tokenization	English	Median End-to-end CPU Time (s)0.925	15
Unsupervised Constituency Parsing	English SPMRL (test)	S-F169.7	15
Automatic Speech Recognition	English	WER13.35	12
BPE Tokenization	English	Speedup Factor3.13	12
Implicit Discourse Relation classification	English (test)	Precision62	12
LLM-as-a-judge Evaluation	English (test)	Overall Score72.7	11
Tokenization	English eng	NSL Score1.27	10
Morphological Alignment	English 300 MB Corpora	Morph. Score64.4	9
Bias-Penalized Accuracy Evaluation	English	Bias-Penalized Accuracy (BPA)98.78	9
Tokenization Efficiency	English	Bytes per Token3.65	6
Speech-to-Singing conversion	English (test)	LSD2.512	6
RST Parsing	English	Span Score88.2	6
ASR error correction	English (en)	WER32	5
Text-to-Speech	English high-resource	MOS4.61	5
audio-driven facial animation	English (test)	MSE0.01	5
Dysarthria Detection	English	Accuracy96.57	5
Alzheimer's Detection	English subset	Accuracy96.73	5
Depression Detection	English	Accuracy97.04	5
Speech Intelligibility Assessment	English	Absolute Kendall's Tau0.768	5

Showing 25 of 44 rows