Share your thoughts, 1 month free Claude Pro on usSee more

Failure Detection and Reasoning on RLBench

91.7Detection Accuracy

ARMOR

Updated 5mo ago

Evaluation Results

Method	Links
ARMOR 2026.02		91.7	71.8	80.2
SFT-S+D 2026.02		72.6	55	64.6
SFT-D 2026.02		64	46	60.6
Claude-3.7 2026.02		56.1	47.3	52.6
Claude-3.7 2026.02		42	37.2	33.6
Qwen2.5-VL 2026.02		37.6	25.5	35.3
Cosmos-Reasoning 2026.02		31.7	22	14
LLaVA-NeXT 2026.02		6.7	34.6	3.2