Math Reasoning

Benchmarks

Task Name	Dataset Name	SOTA Result
Mathematical Reasoning	Math Reasoning AIME24, AIME25, HMMT25	AIME24 Score78.4	30
Mathematical Reasoning	Math Reasoning Overall	Mean@1663.8	24
Preference Modeling	Math Reasoning	Accuracy87.6	20
Math Reasoning	Math Reasoning Long Q, Long A (test)	Pass@10.65	15
Mathematical Reasoning	Math Reasoning Out-domain (SVAMP, Mathematics, SimulEq) (test)	SVAMP Accuracy79.6	8
Mathematical Reasoning	Math Reasoning In-domain (GSM8K, MATH, NumGLUE) (test)	GSM8K Accuracy69.1	8
Math Reasoning	Overall Average Math Reasoning	Pass@154.54	6
Math Reasoning	Math Reasoning Aggregate	Avg@3240.08	6
Math-Reasoning	Math-Reasoning (test)	Gap20.83	4
Math-Reasoning	Math-Reasoning (dev)	Gap24	4
Preference Classification	Math Reasoning (test)	Classification Accuracy85.4	4
Math Reasoning	Math Reasoning 1.5B model (val)	Validation Accuracy69.4	3
Mathematical Visual Reasoning	Math-Reasoning I	Accuracy96.62	1

Showing 13 of 13 rows