Share your thoughts, 1 month free Claude Pro on usSee more

Code Reasoning on CRUX

87.37Accuracy

RMoA

Updated 2mo ago

Evaluation Results

Method	Links
RMoA 2025.05		87.37
SMoA 2025.05		86.93
MoA 2025.05		86.66
GPT-4o 2025.05		75.8
RMoA 2025.05		61
SMoA 2025.05		59.93
Qwen2.5-7B-Instruct 2025.05		57.31
MoA 2025.05		56.81
MoA 2025.05		51.5
SMoA 2025.05		51.25
RMoA 2025.05		50.5
Gemma2-9B-Instruct 2025.05		47.5
MoA 2025.05		46.12
SMoA 2025.05		44.81
RMoA 2025.05		42.65
Llama3.1-8B-Instruct 2025.05		40.62
INTUITOR 2026.05		39.38
VIGOR 2026.05		35.62
INTUITOR 2025.05		29.3
GRPO-PV 2025.05		28.1
GRPO 2025.05		26.6
Baseline 2025.05		26.5
Before RL (Base) 2026.05		24.38
Baseline 2025.05		23.8
GRPO 2025.05		21.8
INTUITOR 2025.05		21.5