AssistantBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Reward Modeling	AssistantBench	Pairwise Accuracy89.17	13
Web Reasoning	AssistantBench	Accuracy31.8	8
Agentic Task Performance	AssistantBench (test)	Easy Accuracy65.8	6

Showing 3 of 3 rows