Share your thoughts, 1 month free Claude Pro on usSee more

Tool-augmented reasoning on API-Bank

79.1Success Rate

GenEnv

Updated 4mo ago

Evaluation Results

Method	Links
GenEnv 2025.12		79.1
Llama 3.1 405B 2025.12		74.4
Qwen 3 14B 2025.12		66.7
ReSearch 2025.12		65.3
Llama 3.1 70B 2025.12		64.3
Qwen 3 32B 2025.12		63.8
SearchR1 2025.12		63.3
Qwen 2.5 7B 2025.12		61.6
Qwen 2.5 72B 2025.12		54.9
ToRL 2025.12		54.1
GPT-OSS 120B 2025.12		53.6
GPT-OSS 20B 2025.12		41.2