Share your thoughts, 1 month free Claude Pro on usSee more

General Language Model Evaluation on Aggregated 11-benchmark suite Math, Code, IF

74.9Average Accuracy

Qwen3-30B-A3B

Updated 2mo ago

Evaluation Results

Method	Links
Qwen3-30B-A3B 2026.05		74.9	0	-	-	-
ZEDA 2026.05		74.2	51.2	-	-	-
ZEDASFT 2026.05		73.3	51.5	-	-	-
NETSFT→OPD 2026.05		73	50	-	-	-
GLM-4.7-Flash 2026.05		72.5	0	-	-	-
NETSFT 2026.05		72.3	50	-	-	-
ZEDA 2026.05		71.8	53	-	-	-
NETSFT→OPD 2026.05		70.9	50	-	-	-
ZEDASFT 2026.05		70.9	52.8	-	-	-
NETSFT 2026.05		70.6	50	-	-	-
Dynamic Skipping 2026.05		68.1	43.8	-	-	-
Dynamic Skipping 2026.05		67.8	37.5	-	-	-
AdaMoE 2026.05		57.1	47	-	-	-
AdaMoE 2026.05		54.8	51.9	-	-	-
IXT 2026.05		50	-	55.5	43.1	41.8
NTP 2026.05		49.2	-	54	44	41.6
IXT 2026.05		46.1	-	52.9	38.8	34.7
IXT 2026.05		45.4	-	52.9	37.6	33.4
NTP 2026.05		43.7	-	50.6	37.2	31.8
IXT 2026.05		37.7	-	34.9	37.2	44.6
NTP 2026.05		36.5	-	34.1	36.3	42