The NeRFect Match: Exploring NeRF Features for Visual Localization

About

In this work, we propose the use of Neural Radiance Fields (NeRF) as a scene representation for visual localization. Recently, NeRF has been employed to enhance pose regression and scene coordinate regression models by augmenting the training database, providing auxiliary supervision through rendered images, or serving as an iterative refinement module. We extend its recognized advantages -- its ability to provide a compact scene representation with realistic appearances and accurate geometry -- by exploring the potential of NeRF's internal features in establishing precise 2D-3D matches for localization. To this end, we conduct a comprehensive examination of NeRF's implicit knowledge, acquired through view synthesis, for matching under various conditions. This includes exploring different matching network architectures, extracting encoder features at multiple layers, and varying training configurations. Significantly, we introduce NeRFMatch, an advanced 2D-3D matching function that capitalizes on the internal knowledge of NeRF learned via view synthesis. Our evaluation of NeRFMatch on standard localization benchmarks, within a structure-based pipeline, sets a new state-of-the-art for localization performance on Cambridge Landmarks.

Qunjie Zhou, Maxim Maximov, Or Litany, Laura Leal-Taix\'e• 2024

Related benchmarks

Task	Dataset	Result
Visual Localization	7Scenes	Median Translation Error (cm) - Chess0.9	66
Visual Localization	7Scenes (test)	Chess Median Angular Error (°)0.3	61
Visual Localization	Cambridge Landmarks	King's Positional Error (cm)12.5	59
Visual Localization	7Scenes RedKitchen	Median Translation Error (cm)1.03	34
Visual Localization	7Scenes Chess	Median Translation Error (cm)0.95	34
Visual Localization	7Scenes Fire	Median Translation Error (cm)1.11	34
Visual Localization	7Scenes Pumpkin	Median Translation Error (cm)2.21	34
Visual Localization	7Scenes (Office)	Median Translation Error (cm)3.09	34
Visual Localization	7Scenes Heads	Median Translation Error (cm)1.34	34
Visual Localization	7 Scenes	Chess Median Translation Error (cm)0.95	33

Showing 10 of 15 rows

Other info

Follow for update

@wizwand_team Discord