Multi-Session SLAM with Differentiable Wide-Baseline Pose Optimization

About

We introduce a new system for Multi-Session SLAM, which tracks camera motion across multiple disjoint videos under a single global reference. Our approach couples the prediction of optical flow with solver layers to estimate camera pose. The backbone is trained end-to-end using a novel differentiable solver for wide-baseline two-view pose. The full system can connect disjoint sequences, perform visual odometry, and global optimization. Compared to existing approaches, our design is accurate and robust to catastrophic failures. Code is available at github.com/princeton-vl/MultiSlam_DiffPose

Lahav Lipson, Jia Deng• 2024

Related benchmarks

Task	Dataset	Result
Two-view Pose Estimation	ScanNet (test)	Pose Error AUC (5°)30.5	13
Two-view relative pose estimation	MegaDepth	AUC @5°60.2	13
Tracking	Waymo Open Dataset (Segment 158686)	ATE1.808	11
Multi-agent Tracking	ReplicaMultiagent Apartment-1	ATE RMSE (Agent 1) [cm]0.63	10
Multi-agent Tracking	ReplicaMultiagent Apartment-2	ATE RMSE (cm) (Agent 1)0.32	9
Multi-agent Tracking	ReplicaMultiagent Office-0	ATE RMSE (Agent 1) [cm]0.41	9
Multi-agent Tracking	ReplicaMultiagent Apartment-0	ATE RMSE (Agent 1) [cm]0.68	9
Multi-agent Tracking	AriaMultiagent Room-1	ATE RMSE (Agent 1)0.84	6
Tracking Accuracy	Tanks & Temples 1 (test)	ATE RMSE (Caterpillar) [m]0.148	6
Multi-agent Tracking	AriaMultiagent (Room-0)	Agent 1 ATE RMSE (cm)1.07	6

Showing 10 of 16 rows

Other info

Code

Follow for update

@wizwand_team Discord