Downstream Task Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
DS-Avg 9 downstream tasks suite		ARC-c Accuracy63.6	39	2mo ago
LM Evaluation Harness MMLU, ARC, HellaSwag, TruthfulQA, Winogrande, CommonsenseQA	Uni-DPO	MMLU70.5	19	2mo ago
LM Evaluation Harness MMLU, ARC-Challenge, HellaSwag, TruthfulQA, Winogrande, GSM8K standard		MMLU65.8	16	4mo ago
OpenLLM Leaderboard v1 (test)	SelectiveDPO	MMLU (5-shot)63.95	14	4mo ago
Multiple Downstream Datasets (LAMBADA, ARC, WinoGrande, PIQA, HellaSwag, SciQ, RACE)		LAMBADA (OpenAI)45	12	4mo ago
Downstream Tasks Aggregate	MeSH	Accuracy60.49	11	3mo ago
10 Downstream Tasks	MeSH	Average Accuracy52.79	9	3mo ago
15 Downstream Tasks summary	MPP-B	Median EG2	7	4mo ago
Downstream Suite (BoolQ, PIQA, HS, WG, ARC-e, ARC-c, OBQA) Zero-shot	LLaMA2	Accuracy (BoolQ)77.7	5	2mo ago
ARC Challenge, BoolQ, OpenbookQA, GSM8K (Strict), MMLU		ARC Challenge Accuracy66.72	5	2mo ago
Downstream	FairyFuse	Throughput (tokens/s)32.43	4	3mo ago
Downstream Tasks Suite (LAMBADA, HellaSwag, PIQA, WinoGrande, OpenBookQA, ARC) (test)	HiLS-Attn HoPE	HellaSwag Accuracy52.21	3	18d ago
MNLI, SCIQ, LAMBADA, HellaSwag, ARC, MMLU	FusedKV	MNLI Acc0.3852	2	4mo ago

Showing 13 of 13 rows