Share your thoughts, 1 month free Claude Pro on usSee more

PROCESSBENCH

Benchmarks

Task Name	Dataset Name	SOTA Result
Process-level Error Localization	PROCESSBENCH	GSM8K Accuracy88	44
Mathematical Reasoning Process Evaluation	ProcessBench (test)	GSM8K Accuracy96.9	35
Process Reward Modeling	ProcessBench	GSM8K Accuracy65.7	28
Mathematical Reasoning Process Evaluation	PROCESSBENCH	GSM8K Accuracy82.9	28
Reasoning	ProcessBench	Accuracy69.85	20
Process Reward Model Assessment	PROCESSBENCH	GSM8K Accuracy87.3	20
Process Verification	ProcessBench Without Standard Answers	Precise Accuracy71.9	18
Process Verification	ProcessBench With Standard Answers	Precise Accuracy78.9	18
Process Reward Modeling	ProcessBench 1.0 (test)	GSM8K Score87.3	14
Step-wise Verification	ProcessBench Overall	F1 Score72.3	13
Step-wise Verification	ProcessBench Omni-MATH	TNR63.1	13
Step-wise Verification	ProcessBench OlympiadBench	TNR61.3	13
Step-wise Verification	ProcessBench Math	TNR69.5	13
Step-wise Verification	ProcessBench GSM8K v1 (val)	True Negative Rate68.6	13
Process-level verification	ProcessBench Aggregate (test)	Avg F156.5	13
Step-level Correctness Discrimination	ProcessBench GSM8K MATH Olympiad Bench Omni Math	GSM8K Error Rate0.242	12
Faithfulness detection	ProcessBench	F1 Score83.2	10
Mathematical Reasoning	ProcessBench (OlympiaBench) 1.0 (test)	Accuracy79.8	10
Mathematical Reasoning	ProcessBench MATH 1.0 (test)	Accuracy88.4	10
Mathematical Reasoning	ProcessBench GSM8K 1.0 (test)	Accuracy96	10
Correctness Assessment	ProcessBench (test)	Worst-case Size Distortion (QwenPRM)0.24	9
Step-level verification	ProcessBench (test)	MATH Accuracy82.1	8
Process-level Evaluation	ProcessBench Average	Mean F136.8	7
Process-level Evaluation	ProcessBench Omni	F1 Score25.6	7
Process-level Evaluation	ProcessBench Olympiad	F1 Score28.7	7

Showing 25 of 34 rows