Offline-to-Online Reinforcement Learning

Benchmarks

Dataset Name	SOTA Method	Metric
D4RL Antmaze	ROAD	Success Rate (Large Diverse)74.51	20	2mo ago
D4RL Aggregate	Loss Smoothing	Average Normalized Score77.6	17	23d ago
D4RL 6 environments min-max normalized (averaged)	SMAC	Normalized Regret0.031	16	5mo ago
D4RL Antmaze	PEX	Avg Normalized Return91	15	5mo ago
D4RL Locomotion medium-expert	FamO2O	Average Normalized Return107.9	15	5mo ago
D4RL Locomotion medium	FamO2O	Average Normalized Return98.3	15	5mo ago
D4RL Locomotion medium-replay	FamO2O	Avg Normalized Return90.8	15	5mo ago
D4RL Locomotion random	FamO2O	Avg Normalized Return53.1	15	5mo ago
D4RL Franka Kitchen	ROAD	Partial Success Rate46.65	12	2mo ago
relocate	SMAC	Regret62.8	12	5mo ago
pen	SMAC	Regret5.3	12	5mo ago
door	SMAC	Regret50.3	12	5mo ago
D4RL Gym-Locomotion	ROAD	HalfCheetah Return (Random)88.36	10	2mo ago
MinAtar	DRIFT	Breakout Score (Online)17.1	10	2mo ago
D4RL Cheetah expert discretized	DRIFT	Online Normalized Score9.7	9	2mo ago
D4RL Cheetah medium discretized		Online Score16.9	9	2mo ago
D4RL Walker expert discretized	DRIFT	Online Normalized Score14.8	9	2mo ago
D4RL Walker medium discretized	DRIFT	Online Normalised Score15.9	9	2mo ago
D4RL Hopper expert discretized	DRIFT	Online Normalised Score47.1	9	2mo ago
D4RL Hopper medium discretized	DRIFT	Online Normalized Score47.9	9	2mo ago
D4RL antmaze-medium-diverse	Cal-QL	OSR81.7	9	2mo ago
D4RL antmaze-medium-play	CQL	OSR81.7	9	2mo ago
Adroit Average	DUAL	Average Online Return46.71	8	1mo ago
relocate cloned v1	DUAL	Average Online Expected Return0.44	8	1mo ago
hammer-cloned v1	DUAL	Average Online Expected Return46.74	8	1mo ago

Showing 25 of 57 rows