Code Reasoning

Benchmarks

Dataset Name	SOTA Method	Metric
LiveCodeBench		Accuracy87.4	102	1mo ago
HumanEval	DeepSeek-R1-Distill-Qwen-14B (Reasoning)	HumanEval Score95.73	70	1mo ago
CRUXEval-O	Kimi-K2 Base	Accuracy83.5	61	1mo ago
CRUXEval		Input-CoT Accuracy98.8	56	4mo ago
MBPP		MBPP Execution Accuracy84.7	39	1mo ago
CRUXEval	PPoT + Qwen2.5 Coder	Accuracy76.87	36	1mo ago
HumanE	Denser	Accuracy84.9	35	4mo ago
LCB v6	CE-GPPO	Accuracy53.6	26	2mo ago
LiveCodeBench (LCB)		Pass@162.6	26	1mo ago
MBPP	COPT	Accuracy94.55	26	2mo ago
LCB	SCF-RKL	pass@162.46	26	2mo ago
CRUX	RMoA	Accuracy87.37	26	2mo ago
LeetCodeDataset	Hybrid-LoRA	Pass@474.5	25	2mo ago
SuperGPQA Code SGPQA-1k	DFT	Accuracy47.4	24	3mo ago
R-Bench-T Code	DFT	Accuracy49.91	24	3mo ago
OJBench	DFT	Accuracy10.34	24	3mo ago
CRUX official (test)		Pass@1 Accuracy51.1	20	2mo ago
HumanEvalPro	ACPO	Pass@146.34	18	18d ago
Code Benchmarks HumanEval MBPP	RASFT	HumanEval72.29	18	1mo ago
Code HumanEval+ LiveCodeBench v5	Qwen3-4B-Base (HEAL)	HEval+ (Pass@1)79.88	18	3mo ago
LiveCodeBench 1.0 (test)	A3PO	Accuracy47.2	18	4mo ago
CUE-Bench	Qwen2.5-0.5B	VT Score1.2	16	1mo ago
LCB v5	MCPO-DAPO	Accuracy33.72	16	2mo ago
HumanEval+	ResRL	Pass@1697	15	1mo ago
LiveCodeBench	ResRL	Avg@1643.2	15	1mo ago

Showing 25 of 53 rows