Share your thoughts, 1 month free Claude Pro on usSee more

Mathematical Reasoning on OlympiadBench (Accuracy, Pass@1)

64Pass@1

Qwen3-4B-Instruct-2507

Updated 4mo ago

Evaluation Results

Method	Links
Qwen3-4B-Instruct-2507 2025.12		64	-
NPR 2025.12		63.7	-
SR 2025.12		62.2	-
NPR (Variant) 2025.12		61.9	-
NPR-BETA 2025.12		60.1	-
NPR-BETA (Variant) 2025.12		57.8	-
SR-BETA 2025.12		56.3	-
Qwen3-4B (Non-Thinking) 2025.12		48.6	-
Multiverse-32B 2025.12		48	-
Qwen2.5-32B-Instruct 2025.12		46.4	-
Segment Selective SFT 2026.01		41.9	-
Multiverse-4B 2025.12		38.8	-