OSWorld

Benchmarks

Task Name	Dataset Name	SOTA Result
GUI Grounding	OSWorld-G	Average Score72.7	164
GUI Grounding	OSWorld-G (test)	Element Accuracy78.4	52
Computer Use	OSWorld	OS Success Rate75	45
OS GUI Agentic Task Execution	OSWorld 361 tasks (Verified)	OS Success Rate79.17	43
Operating System GUI Agentic Reasoning	OSWorld	Success Rate64.29	42
GUI Agent Task Completion	OSWorld 1.0 (test)	Success Rate (OS)91.67	42
GUI Automation	OSWorld Verified (test)	Overall Success Rate61.92	40
GUI Grounding	OSWorld G-Refine v1.0 (test)	Overall Success Rate76.1	37
UI Agent Evaluation	OSWorld	SR (15 Steps)40.3	34
GUI Navigation	OSWorld Verified	OS Success Rate91.7	32
GUI automation	OSWorld	Overall Success Rate86.8	28
GUI Agent Interaction	OSWorld	Average Accuracy42.5	27
GUI grounding	OSWorld-G-Refine	Accuracy76.4	24
Computer task execution	OSWorld (verified)	Office Task Score64.8	24
Interactive Desktop Task Success	OSWorld	Overall Success Rate50.11	23
GUI Grounding	OSWorld-G v1.0 (test)	Accuracy67.6	22
Grounding	OSWorld	Overall Score64.7	22
Grounding	OSworld G-R	Accuracy76.4	22
Grounding	OSWorld-G-Refine (test)	Overall Success Rate76.4	17
Agentic Performance	OSWorld Verified	OS Performance70.8	16
GUI Agent Interaction	OSWorld	Success Rate (Max Steps: 15)42.9	16
End-to-End Environment Interaction	OSWorld-Verified (test)	Pass@161.4	16
GUI Agent Task Success	OSWorld	Success Rate24.4	16
Task accuracy	OSWorld	Task Accuracy41.49	15
Multimodal Task Accuracy	OSWorld	Multimodal Task Accuracy41.49	15

Showing 25 of 68 rows