Share your thoughts, 1 month free Claude Pro on usSee more

Multitask Knowledge Evaluation on MMLU-Pro

80Pass@1

Qwen3

Updated 2mo ago

Evaluation Results

Method	Links
Qwen3 2026.05		80
Qwen3-8192 2026.05		76.5
LUFFY 2026.05		50.1
TGPO-annealing 2026.05		50.1
TGPO 2026.05		48.9
TGPOR 2026.05		48.1
GRPO++ 2026.05		46.9
KDRL 2026.05		46.9
SFT 2026.05		44.9
Oat-Zero 2026.05		41.7
SimpleRL-Zero 2026.05		34.5
PRIME-Zero 2026.05		32.7
OP Distill 2026.05		23
Qwen2.5-Math-7B 2026.05		16.9