Share your thoughts, 1 month free Claude Pro on usSee more

Tool Use on API-Bank (test)

75.54Overall Accuracy

CAHL

Updated 1mo ago

Evaluation Results

Method	Links
CAHL 2026.06		75.54	-	81.7	64.2	62.6	-	-
TUMIX 2026.06		73.7	-	76.19	53.73	76.34	-	-
ToolSample 2026.06		64.99	-	73.2	65.7	39.7	-	-
GD2PO-Hard 2026.06		62.88	-	69.27	57.61	46.11	1	1.629
GD2PO-SNR 2026.06		62.35	-	68.57	58.21	45.49	1	1.624
ToolRL 2026.06		61.81	-	72.2	56.7	32.8	-	-
GDPO 2026.06		61.57	-	67.42	56.12	46.57	1	1.616
GRPO 2026.06		61.24	-	67.22	56.42	45.5	0.99	1.602
Tool-N1 2026.06		60.47	-	70.7	46.3	36.6	-	-
GD2PO-Hard 2026.06		58.79	-	64.81	43.88	48.09	1	1.588
GD2PO-SNR 2026.06		58.79	-	64.11	42.39	51	1	1.588
Qwen 2026.06		58.29	-	65.4	43.3	44.3	-	-
GRPO 2026.06		57.05	-	63.91	44.78	42.44	1	1.571
GDPO 2026.06		55.44	-	60.95	42.69	45.19	1	1.554
EASYTool 2026.06		54.61	-	61.15	35.82	44.27	-	-
GD2PO-Hard 2026.06		52.96	-	59.95	44.48	36.03	0.99	1.52
GD2PO-SNR 2026.06		52.36	-	58.59	45.97	36.64	1	1.524
GRPO 2026.06		51.46	-	56.59	43.28	40	0.99	1.505
GDPO 2026.06		50.89	-	56.69	44.78	36.33	1	1.509
Llama 3 8B 2024.07		-	82.6	-	-	-	-	-
Gemma 2 9B 2024.07		-	56.5	-	-	-	-	-
Mistral 7B 2024.07		-	55.8	-	-	-	-	-
Llama 3 70B 2024.07		-	90	-	-	-	-	-
Mixtral 8x22B 2024.07		-	73.1	-	-	-	-	-
GPT-3.5 Turbo 2024.07		-	60.9	-	-	-	-	-
Llama 3 405B 2024.07		-	92.3	-	-	-	-	-
GPT-4 2024.07		-	89	-	-	-	-	-
GPT-4o 2024.07		-	91.3	-	-	-	-	-
Claude 3.5 Sonnet 2024.07		-	92.6	-	-	-	-	-
Gorilla 2026.03		-	38.7	-	-	-	-	-
ToolLLM 2026.03		-	52.4	-	-	-	-	-
AvaTaR 2026.03		-	63.5	-	-	-	-	-
GPT-4 (function calling) 2026.03		-	67.1	-	-	-	-	-
Bloomberg AI Engineering 2026.03		-	66.7	-	-	-	-	-
ToolRLA 2026.03		-	71.8	-	-	-	-	-