Share your thoughts, 1 month free Claude Pro on us
See more
Home
/
Benchmarks
Failure Detection on Franka Panda DROID robot (unseen scenes)
Loading...
94
F1 (Move Banana)
ROBOMETER
43.04
56.27
69.5
82.73
Mar 2, 2026
F1 (Move Banana)
F1 (Move Mouse)
F1 (Pour Pebble)
F1 (Fold Towel)
F1 (Pull Tissue)
F1 (Put Spoon)
F1 (Stir Pot)
Average F1 Score
Updated 1mo ago
Evaluation Results
Method
Method
Links
F1 (Move Banana)
F1 (Move Mouse)
F1 (Pour Pebble)
F1 (Fold Towel)
F1 (Pull Tissue)
F1 (Put Spoon)
F1 (Stir Pot)
Average F1 Score
ROBOMETER
Zero-shot=true
2026.03
94
91
83
58
76
73
90
81
RoboReward-4B
Zero-shot=true
2026.03
91
80
73
40
57
73
95
74
T.U.
Zero-shot=true
2026.03
53
50
32
58
43
22
47
48
GPT-5-mini
Zero-shot=true
2026.03
48
89
25
27
0
25
17
33
VLAC
Zero-shot=true
2026.03
45
0
0
16
0
0
0
16
Feedback
Search any
task
Search any
task