MoMo: Conditioned Contrastive Representation Learning for Preference-Modulated Planning

About

Temporally contrastive representation learning induces a latent structure capable of reducing long-horizon planning to inference in a low-dimensional linear system. However, existing contrastive planning work learns a single latent geometry which cannot distinguish multiple valid behaviors trading task efficiency against risk exposure for the same start-goal query. We introduce MoMo, a preference-conditioned contrastive planner allowing a scalar user preference to continuously modulate plan conservativeness at inference time, without retraining. MoMo learns a joint conditioning of the representation geometry and latent prediction operator via Feature-Wise Linear Modulation and low-rank neural modulation, respectively. We show that our formulation preserves the probability density ratio encoded in the representation space that is required for inference-driven contrastive planning, further retaining its inference-time efficiency. Across six environments, MoMo smoothly adapts plan safety according to user preferences, yielding improved temporal and preferential consistency over state augmentation baselines.

Yusuf Syed, Viraj Parimi, Brian Williams• 2026

Related benchmarks

Task	Dataset	Result
Preference-conditioned planning	Ant Habitat	ΔC3.82	4
Preference-conditioned planning	UR5	Delta C0.92	4
Preference-conditioned planning	Point Habitat	ΔC7.29	4
Preference-conditioned planning	DRONE	ΔC3.42	4
Preference-conditioned planning	Point Four Obstacles	ΔC9.37	4
Preference-conditioned planning	Point Contour	Delta C2.36	4

Showing 6 of 6 rows

Other info

Follow for update

@wizwand_team Discord