Share your thoughts, 1 month free Claude Pro on usSee more

Math Reasoning on MultiArith (Accuracy and Reasoning Length)

99.3Accuracy

CoT-SFT

Updated 25d ago

Evaluation Results

Method	Links
CoT-SFT 2026.06		99.3	69.4
SFT-CoT 2026.01		98.3	59.1
RoT (Ours) 2026.01		97.2	32
SFT-CoT 2026.01		95	68
CoT-SFT 2026.06		95	68
DLR (Full) 2026.06		94.4	4.2
DLR (Full) 2026.06		93.7	4.1
ReGuLaR 2026.01		89.2	2.28
ReGuLaR 2026.06		89.2	2.3
CoLaR 2026.01		87	3.23
CoLaR 2026.06		87	3.2
SFT-CoT 2026.01		86.1	82.3
SFT-w/o CoT 2026.01		85.6	0
CoLaR 2026.06		79.4	3.4
RoT (Ours) 2026.01		68.3	32
RoT (Ours) 2026.01		62.2	32
RoT 2026.06		62.2	32
Coconut 2026.06		52.9	6
SFT-w/o CoT 2026.01		52.8	0
SFT-w/o CoT 2026.01		41.7	0
Direct-SFT 2026.06		41.7	0
Coconut 2026.01		41.4	6
Coconut 2026.06		41.4	6
iCoT 2026.01		38.2	0
iCoT 2026.06		38.2	0
Direct-SFT 2026.06		32.2	0
CODI 2026.01		19.2	6
CODI 2026.06		19.2	6
CODI 2026.06		17.5	6