Bridging Domain Gaps with Target-Aligned Generation for Offline Reinforcement Learning

About

Cross-domain offline reinforcement learning aims to adapt a policy from a source domain to a target domain using only pre-collected datasets, where environment dynamics may differ. A key challenge is to leverage source data while reducing distributional mismatch, particularly when the target dataset is extremely limited. To address this, we propose Target-aligned Coverage Expansion (TCE), a framework that decides how source data should be used, either by directly incorporating target-near transitions or by expanding state coverage through target-aligned generation, guided by theoretical analysis. TCE builds on a dual score-based generative model to synthesize target-consistent transitions over an expanded state region. Extensive experiments across diverse cross-domain environments show that TCE consistently outperforms state-of-the-art cross-domain offline RL baselines.

Minung Kim, Jeongmo Kim, Gwanwoo Choi, Seungyul Han• 2026

Related benchmarks

Task	Dataset	Result
Offline Reinforcement Learning under Gravity Shift	MuJoCo Hopper	Normalized Return73.4	104
Offline Reinforcement Learning under Gravity Shift	MuJoCo Ant	Normalized Return58	104
Offline Reinforcement Learning under Gravity Shift	MuJoCo HalfCheetah	Normalized Return41.7	104
Offline Reinforcement Learning under Gravity Shift	MuJoCo Walker2d	Normalized Return65.2	72
Cross-domain Offline Reinforcement Learning	MuJoCo HalfCheetah	--	19
Adroit Pen Manipulation	ODRL Adroit Pen broken-joint High	Normalized Return44.8	15
Adroit Pen Manipulation	ODRL Adroit Pen shrink-finger Medium	Normalized Return38.6	15
Adroit Pen Manipulation	ODRL Adroit Pen broken-joint Medium	Normalized Return59.6	15
Cross-domain Offline Reinforcement Learning	MuJoCo Walker2d	--	12
Cross-domain Offline Reinforcement Learning	MuJoCo Hopper	Hopper Performance (m -> m)66	8

Showing 10 of 19 rows

Other info

Follow for update

@wizwand_team Discord