HELM

Benchmarks

Task Name	Dataset Name	SOTA Result
Hallucination Detection	HELM Passage Level v1.0 (test)	AUC0.9599	84
Hallucination Detection	HELM Sentence Level v1.0 (test)	AUC0.8835	84
Language Modeling	HELM macro-averaged (test)	Accuracy73.2	30
Predictive LLM Routing	HELM Lite	OpenAI Performance64.3	26
Downstream Evaluation	SEA-HELM	Indonesian54.1	18
Natural Language Reasoning	HELM	Synth. Reason. (AS)54	16

Showing 6 of 6 rows