SOTA Multi-task Language Understanding on CEval and PapersWithCode

91.21Accuracy

Qwen3 Model

Updated 1mo ago

Evaluation Results

Method	Links
Qwen3 Model 2025.09		91.21
Base Model(Qwen3-8B-Base) 2026.05		82.5
ANDES (Ours) 2026.05		82.4
Dataflow 2026.05		82.1
Infininstruct 2026.05		81.3
Qwen3 Model 2025.09		78.7
Infininstruct 2026.05		77.9
Qwen3 Model 2025.09		76.76
Qwen2.5-Dense2MoE 2026.05		72.51
Qwen3 Model 2025.09		72.02
AAPA 2025.09		70.45
Qwen2.5-Dense 2026.05		68.72
Qwen3 Model 2025.09		62.62
Qwen3 Model 2025.09		58.02
DeepSeek Chat 7B 2024.01		44.7
FRAME 2025.02		44
AAPA 2025.09		41.38
Qwen3 Model 2025.09		41.14
DeepSeekMoE 16B 2024.01		40.6
DeepSeek 67B (Dense) 2024.01		40.3
DeepSeekMoE Chat 16B 2024.01		40
Llama2-Dense2MoE 2026.05		38.68
DeepSeekMoE 145B 2024.01		37.1
PDPC 2025.02		36.1
LLaMA2 SFT 7B 2024.01		35.1
LLaMA2 7B 2024.01		33.9
DeepSeekMoE 142B (Half Activated) 2024.01		32.8
Llama2-Dense 2026.05		30.99
Random 2025.02		27.2
GShard 137B 2024.01		26.2
Q3 -> Q1 -> Q4 -> Q2 2025.02		25.5