BFCL

Benchmarks

Task Name	Dataset Name	SOTA Result
Function Calling	BFCL V3	Overall Accuracy79.3	104
Function Calling	BFCL Multi-Turn v3	Overall Accuracy78.7	69
Function Calling	BFCL	False Negative Rate0	56
Multi-turn Tool-use	BFCL multi-turn V3	Average Success Rate68	48
Tool Use	BFCL	Accuracy94	45
Tool-use Factuality Evaluation	BFCL Task	Factuality Score76	42
Tool Use	BFCL V4	Accuracy76.5	33
Function Calling	BFCL V4	Multi-Turn Success Rate62.3	32
Function Calling	BFCL Individual Tools per Problem	Execution Accuracy95	30
Function Calling	BFCL	Success Rate (Simple)83.27	29
Function Calling	BFCL v4	Score68.8	25
Function Calling	BFCL (Live)	Simple Accuracy88.25	24
Multi-Turn Function Calling	BFCL Multi-Turn Base v3	Greedy Success Rate69	24
Tool-use	BFCL Multi-turn	Accuracy54.75	24
Tool-use Inference	BFCL v2	MAT Score5.31	22
Function Calling	BFCL Multi-turn	Accuracy42.3	22
Function Calling	BFCL Single-turn	Accuracy84.2	22
Tool Use	BFCL	BFCL v4 Score77	20
Multi-turn tool calling	BFCL MT v4	Success Rate48	20
Function Calling / Tool Use	BFCL parallel parallel-multiple Actions	Accuracy82.2	20
Function Calling	BFCL Memory	Task Accuracy28.22	20
Tool Usage	BFCL Multi-Parallel v2	Accuracy87.5	20
Tool Usage	BFCL Parallel v2	Accuracy87.5	20
Tool Usage	BFCL Multi-Parallel v1	Accuracy90.5	20
Tool Usage	BFCL Parallel v1	Accuracy95.5	20

Showing 25 of 151 rows