Share your thoughts, 1 month free Claude Pro on usSee more

Mistake detection on Multi-robot dataset Ordering (test)

48.71AP

TIMID

Updated 4mo ago

Evaluation Results

Method	Links
TIMID 2026.03		48.71	36.89	41.98
Qwen 2.5 2026.03		28.92	7.46	11.86
PEL4VAD 2026.03		24.15	15.55	18.92
Qwen 2.5 (ft) 2026.03		17.44	11.81	14.08
Auto-Encoder 2026.03		11.8	5.04	7.06