Our new X account is live! Follow @wizwand_team for updates

Reasoning on BIG-Bench Extra Hard

37.8Score

Qwen3-30B-A3B-Inst-2507

Updated 4d ago

Evaluation Results

Method	Links
Qwen3-30B-A3B-Inst-2507 2026.02		37.8	1
LLaDA2.1-flash 2026.02		35.77	3.17
LLaDA2.1-flash 2026.02		33.51	5.04
LLaDA2.0-flash 2026.02		27.86	4.6
Ling-flash-2.0 2026.02		23.24	1
Qwen3-8B 2026.02		18.27	-
LLaDA2.0-mini 2026.02		16.47	2.03
LLaDA2.1-mini 2026.02		15.78	1.66
LLaDA2.1-mini 2026.02		15.3	3.19
Ling-mini-2.0 2026.02		14.81	-