Agent-SafetyBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Agentic Oversight	Agent-SafetyBench	Detection Accuracy84.06	42
Misalignment Detection	Agent-SafetyBench n=35 (aligned traces)	Avg. IR31.4	30
Misalignment Detection	Agent-SafetyBench underspecified queries n=148	Error Rate (ER)0.8	30
Agent Safety Evaluation	Agent-SafetyBench aggregated clean and five attack types	UBR26.31	30
Agent Safety Evaluation	Agent-SafetyBench	Agent-SafetyBench Score72.3	8
Safety Evaluation	Agent-SafetyBench	Availability Rate48	4

Showing 6 of 6 rows