RynnBrain: Open Embodied Foundation Models

About

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

Ronghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao• 2026

Related benchmarks

Task	Dataset	Result
Vision-Language Navigation	R2R-CE (val-unseen)	Success Rate (SR)0.00e+0	779
Vision-Language Navigation	RxR-CE (val-unseen)	SR56.1	512
Vision-and-Language Navigation	R2R (val unseen)	Success Rate (SR)58.6	476
3D Visual Grounding	ScanRefer	--	172
3D Dense Captioning	Scan2Cap	--	127
Multimodal Understanding	MMBench (dev)	MMB Score85.5	73
Spatial Reasoning	SPAR-Bench	Overall Score49.8	59
Embodied Reasoning and Question Answering	ERQA	Score46.8	53
3D Question Answering	ScanQA	--	48
Egocentric daily-task planning	EgoPlanBench2	Overall Success Rate34.8	44

Showing 10 of 52 rows

Other info

GitHub

Follow for update

@wizwand_team Discord