Share your thoughts, 1 month free Claude Pro on usSee more

Offline GUI Agent Evaluation on CAGUI (Full)

90.3Type Accuracy

Mimo-VL-7B + WildGUI

Updated 2mo ago

Evaluation Results

Method	Links
Mimo-VL-7B + WildGUI 2026.05		90.3	71
UI-TARS-7B 2026.05		88.6	70.3
Qwen2.5-VL-7B* + WildGUI 2026.05		88.3	65.4
Mimo-VL-7B 2026.05		82.2	63.4
OS-Atlas-7B 2026.05		81.5	55.9
Qwen2.5-VL-7B* 2026.05		74.2	55.2
Aguvis-7B 2026.05		67.4	38.2
OS-Genesis-7B 2026.05		38.1	14.5
GPT-4o 2026.05		3.7	3.7