Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning on MATH-500, AIME 24, AIME 25, GPQA Diamond, CommonsenseQA, LiveCodeBench, and LongBenchv2 Qwen3

74.8Accuracy

Base Model

Updated 4mo ago

Evaluation Results

Method	Links
Base Model 2026.01		74.8	-	69.2
Format-Adaptive-Answer 2026.01		72.2	-	72.3
Adaptive-Answer 2026.01		72.1	-	72.5
Base Model 2026.01		69.9	-	71.6
Adaptive-Answer 2026.01		69	-	75.5
Format-Adaptive-Answer 2026.01		68.7	-	76.6
Base Model 2026.01		50.9	-	65.4
Format-Adaptive-Answer 2026.01		50.7	-	59.7
Adaptive-Answer 2026.01		50.4	513,318	59.6
Base Model 2026.01		50.3	-	62.1
Adaptive-Answer 2026.01		49.1	-	62.1
Format-Adaptive-Answer 2026.01		48.3	-	62.1