Share your thoughts, 1 month free Claude Pro on usSee more

Tool Use Reasoning on Tool use

61.31Mean Accuracy @16

GRPO

Updated 1mo ago

Evaluation Results

Method	Links
GRPO 2026.05		61.31	-	-
GRPO 2026.05		60.85	-	-
GRPO 2026.05		60.23	-	-
GRPO 2026.05		59.93	-	-
SDPO 2026.05		59.44	-	-
ROSD 2026.05		59.38	-	-
ROSD 2026.05		59.38	-	-
ROSD 2026.05		59.19	-	-
GRPO 2026.05		59.16	-	-
GRPO 2026.05		58.98	-	-
GRPO 2026.05		58.92	-	-
GRPO 2026.05		58.85	-	-
ROSD 2026.05		58.27	-	-
ROSD 2026.05		57.17	-	-
SDPO 2026.05		57.05	-	-
ROSD 2026.05		57.05	-	-
ROSD 2026.05		56.46	-	-
ROSD 2026.05		55.15	-	-
SDPO 2026.05		54.87	-	-
SDPO 2026.05		54.01	-	-
SDPO 2026.05		39.64	-	-
SDPO 2026.05		2.27	-	-
SDPO 2026.05		0.86	-	-
SDPO 2026.05		0.83	-	-
Qwen3-8B 2026.01		-	57.5	-
GRPO 2026.01		-	64.9	67.7
GRPO (on-policy) 2026.01		-	60.2	65.7
SDPO (on-policy) 2026.01		-	68	68.5
Olmo3-7B-Instruct 2026.01		-	39.3	-
GRPO 2026.01		-	56.4	65
GRPO (on-policy) 2026.01		-	56.8	60.6
SDPO (on-policy) 2026.01		-	60.8	62.1