Share your thoughts, 1 month free Claude Pro on usSee more

Robot Failure Analysis (MCQ) on RoboFAC (Real-world)

96FD

GPT-4o

Updated 3mo ago

Evaluation Results

Method	Links
GPT-4o 2026.04		96	43	52
KITE+Qwen2.5-7B+QLoRA 2026.04		89	58	77
KITE + Qwen2.5-VL-7B 2026.04		84	43	74
Qwen2.5-VL-7B 2026.04		83	38	72
RoboFAC-7B 2026.04		80	56	71
Gemini-2.0 2026.04		60	11	18
Qwen2.5-VL-3B 2026.04		4	3	7