Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

About

We introduce Dr. Splat, a novel approach for open-vocabulary 3D scene understanding leveraging 3D Gaussian Splatting. Unlike existing language-embedded 3DGS methods, which rely on a rendering process, our method directly associates language-aligned CLIP embeddings with 3D Gaussians for holistic 3D scene understanding. The key of our method is a language feature registration technique where CLIP embeddings are assigned to the dominant Gaussians intersected by each pixel-ray. Moreover, we integrate Product Quantization (PQ) trained on general large-scale image data to compactly represent embeddings without per-scene optimization. Experiments demonstrate that our approach significantly outperforms existing approaches in 3D perception benchmarks, such as open-vocabulary 3D semantic segmentation, 3D object localization, and 3D object selection tasks. For video results, please visit : https://drsplat.github.io/

Kim Jun-Seong, GeonU Kim, Kim Yu-Ji, Yu-Chiang Frank Wang, Jaesung Choe, Tae-Hyun Oh• 2025

Related benchmarks

Task	Dataset	Result
3D Semantic Segmentation	ScanNet++	mIoU (20 classes)39.85	42
3D Object Extraction	LERF	Accuracy99.4	26
3D Object Extraction	Mip-NeRF 360	Acc98.6	26
3D Object Extraction	LLFF	Accuracy97.9	26
Semantic segmentation	ScanNet 19 classes	mIoU29.3	23
3D object selection	LERF-OVS	mIoU (Mean)43.58	21
3D Semantic Segmentation	ScanNet	mIoU (10 classes)47.2	17
Open-Vocabulary 3D Semantic Segmentation	ScanNet 10 classes	mIoU50.8	17
Open-Vocabulary 3D Semantic Segmentation	ScanNet 15 classes	mIoU38.2	17
Open-Vocabulary 3D Semantic Segmentation	ScanNet 19 classes	mIoU31.66	17

Showing 10 of 56 rows

Other info

Follow for update

@wizwand_team Discord