Knowledge Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
MMLU		MMLU Accuracy82.03	64	1mo ago
Natural Questions (NQ) (Evaluation)	GRADEpre	Accuracy83	45	3mo ago
C-Eval (test)	TopoPrior+ARG	Natural Sciences Score93.02	36	2mo ago
IKP		Accuracy (IKP)71.9	30	2mo ago
KMMLU, KMMLU Redux, KMMLU Pro, CLIcK, KoBALT, MMLU Pro, GPQA Diamond	DeepSeek-V3.1	Accuracy85.1	21	4mo ago
MMLU-Redux		Brier Score0.1083	18	4mo ago
HLE	VRPO	Accuracy3.94	12	1mo ago
ArabicMMLU		Accuracy81.23	10	4mo ago
OALL v2		Accuracy77.44	9	4mo ago
M MMLU_c	ML	Accuracy (MMLU_c)29.87	7	3mo ago
Include_c	ML (15%)	Accuracy37.8	7	3mo ago
GMMLU c	MKC-e	Accuracy32	7	3mo ago
Cmmlu_c	ML (Q3)	Accuracy36.88	7	3mo ago
MMLU (test)		Accuracy84.6	6	24d ago
KMMLU (test)	LuckyStar 111B	Accuracy68.6	6	24d ago
SuperGPQA Continual	STOC	Accuracy15.85	6	2mo ago
SuperGPQA (Original)	STOC	Accuracy11.01	6	2mo ago
MMLU-Redux 2.0 (Continual)	STOC	Accuracy33.49	6	2mo ago
MMLU-Redux 2.0 (Original)	STOC	Accuracy42.03	6	2mo ago
MMLU (Continual)	STOC	Accuracy32.03	6	2mo ago
Winogrande (Evaluation)	Disagreement	Accuracy58	6	4mo ago
WikiText (eval)	Disagreement	BPB0.777	6	4mo ago
PopQA (Evaluation)	GAME-LoRA	Accuracy11.2	6	4mo ago
MMLU STEM	TSD-KD	Accuracy49.7	5	4mo ago
Overall Knowledge Aggregation (Aggregate)	CAD	Improvement (%)40	5	4mo ago

Showing 25 of 28 rows