Share your thoughts, 1 month free Claude Pro on usSee more

Zero-shot Reasoning on ARC-e, PIQA, OpenbookQA, Winogrande, HellaSwag, and MathQA

57Average Accuracy

Baseline

Updated 1mo ago

Evaluation Results

Method	Links
Baseline 2026.04		57
Base Model 2026.06		57
Swift-SVD* 2026.04		51
Swift-SVD 2026.04		50
AIR 2026.06		49.9
SVD-LLM(W) 2026.04		49
Dobi-SVD(w) 2026.04		49
SVD-LLM(W) 2026.06		48.8
ASVD 2026.04		45
Swift-SVD* 2026.04		44
Swift-SVD 2026.04		43
AIR 2026.06		41.6
Dobi-SVD(w) 2026.04		41
SVD-LLM(W) 2026.06		40
ASVD 2026.06		39.5
SVD-LLM(W) 2026.04		38
Swift-SVD 2026.04		34
Swift-SVD* 2026.04		34
AIR 2026.06		33.6
SVD-LLM(W) 2026.06		33.3
Vanilla SVD 2026.06		32.8
Vanilla SVD 2026.06		32.4
Vanilla SVD 2026.06		32.1
Vanilla SVD 2026.06		31.8
AIR 2026.06		31.7
FWSVD 2026.06		31.5
ASVD 2026.06		31.4
FWSVD 2026.06		31.3
ASVD 2026.06		31.3
SVD-LLM(W) 2026.06		31.3
FWSVD 2026.06		31.2
ASVD 2026.06		31.2
FWSVD 2026.06		31.1
Dobi-SVD(w) 2026.04		30
SVD-LLM(W) 2026.04		11
ASVD 2026.04		10
FWSVD 2026.04		8
ASVD 2026.04		6
FWSVD 2026.04		4
FWSVD 2026.04		3