SOTA Function Calling benchmarks and papers with code

Benchmarks

Dataset Name	SOTA Method	Metric
BFCL V3	D-CORE-14B	Overall Accuracy79.3	104	25d ago
BFCL Multi-Turn v3	MIND-Skill	Overall Accuracy78.7	69	2mo ago
BFCL	MPMA DPMA	False Negative Rate0	56	3mo ago
Tool-Alpaca	GPT-4o	F1 Score77.66	40	2mo ago
BFCL V4		Multi-Turn Success Rate62.3	32	1mo ago
BFCL Individual Tools per Problem		Execution Accuracy95	30	4mo ago
ToolBench Average	ParaTool	Pass Rate75.95	30	1mo ago
BFCL	OpenFunctions-v2	Success Rate (Simple)83.27	29	2mo ago
in-house product dataset	CORTIS	Exact Match (EM)95.94	28	1mo ago
BFCL (Berkeley Function Calling Leaderboard)	GenEnv	Base Score41.8	28	4mo ago
Berkeley Function Call Leaderboard (BFCL) Live (Out-of-Domain)	Qwen3-4B	AST Simple0.876	26	4mo ago
Berkeley Function Call Leaderboard (BFCL) Non-Live Out-of-Domain		AST Simple81.4	26	4mo ago
BFCL v4		Score68.8	25	2mo ago
BFCL (Live)	GENESISFUNC-8B	Simple Accuracy88.25	24	1mo ago
BFCL Multi-turn	EVOTOOL	Accuracy42.3	22	4mo ago
BFCL Single-turn	EvoPrompt	Accuracy84.2	22	4mo ago
API-Bank	GENESISFUNC-8B	Level-1 Score79.17	20	1mo ago
BFCL Memory	SGLang FP4	Task Accuracy28.22	20	2mo ago
Berkeley Function Calling Leaderboard (BFCL) Overall November 19, 2025	R2IF	Non-live Accuracy69.44	20	3mo ago
ACEBench	R2IF	Atom Score78	20	3mo ago
BFCL Simple Python		Accuracy0.938	20	4mo ago
Berkeley Function Call Leaderboard (BFCL) online inference setting	Qwen3-8B	Input Tokens621.13	19	4mo ago
TB-MM	DTDR-L	FSA64.1	18	4mo ago
TB-HF	DTDR-L	FSA60.5	18	4mo ago
TB-DL	DTDR-L	FSA89	18	4mo ago

Showing 25 of 116 rows