Reasoning Robustness on Mathematical Reasoning Perturbation Experiments

76.2Robustness Perturbation Success Rate (R-PSR)

R1-Qwen-7B (Base)

Updated 4mo ago

Evaluation Results