Share your thoughts, 1 month free Claude Pro on usSee more

Aggregate Performance Evaluation on MMLU, GSM, HellaSwag, TruthfulQA, ARC-C, CodeX

5.32Improvement

MADS8B

Updated 1mo ago

Evaluation Results

Method	Links
MADS8B 2026.05		5.32
MADS3B 2026.05		5.1
SelectIT 2026.05		3.15
MADS8B 2026.05		2.34
NUGGETS 2026.05		1.51
MADS3B 2026.05		1.45
ClusterClip 2026.05		1.29
InsTag 2026.05		0.96
DEITA 2026.05		0.91
ClusterClip 2026.05		0.86
InsTag 2026.05		0.71
MoDS 2026.05		-0.27
SelectIT 2026.05		-0.44
NUGGETS 2026.05		-1.51
MoDS 2026.05		-1.57
DEITA 2026.05		-2.51
IFD 2026.05		-5.36
IFD 2026.05		-5.67