Share your thoughts, 1 month free Claude Pro on usSee more

Mobile Agent Safety and Capability Evaluation on Phone-Harm + Normal-150 (merged)

0.2Harm Rate (HR)

GPT-5

Updated 3mo ago

Evaluation Results

Method	Links
GPT-5 2026.04		0.2	68.75	4.26	0.29	0.4
Gemini-3 2026.04		0.42	71.67	10.53	0.59	3.85
AutoGLM-VLM 2026.04		1.79	72.22	39.56	2.48	0.79
CORA 2026.04		2.19	89.69	85.29	2.44	9.83
UI-TARS-1.5 2026.04		2.87	77.28	57.14	3.71	3.85