Share your thoughts, 1 month free Claude Pro on usSee more

Benign tool-calling reliability on AgentHarm Benign

0Refusal Rate

GPT-4o

Updated 4mo ago

Evaluation Results

Method	Links
GPT-4o 2026.03		0	0.8
GPT-5 2026.03		0	0.68
Qwen2.5-7B 2026.03		13	0.51
Qwen3-4B-Think 2026.03		13	0.66
Qwen2.5-7B 2026.03		15	0.61
GPT-4o 2026.03		19	0.75
Phi-4 2026.03		19	0.75
Qwen3-4B-Think 2026.03		23	0.7
GPT-5 2026.03		24	0.73
Phi-4 2026.03		43	0.77