Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Walker2D v5

6,335.5Average Return

TD3+DBC(*)

Updated 3mo ago

Evaluation Results

Method	Links
TD3+DBC(*) 2026.02		6,335.5	-
SAC+DBC(*) 2026.02		6,138.2	-
SAC+TQC 2026.02		5,802.6	-
QVPO+DBC(*) 2026.02		5,448.1	-
TD3+CDQ 2026.02		5,093.7	-
QVPO+CDQ 2026.02		4,986.3	-
SAC+CDQ 2026.02		4,854.4	-
SAC+IQN 2026.02		4,766.5	-
T-REX 2026.02		4,417	-
Trex 2026.02		4,385	-
Causal PBRS 2026.02		4,295	-
Full State SAC 2026.02		4,050	-
Full State SAC 2026.02		4,050	-
T-REX 2026.02		4,045	-
SAC Baseline 2026.02		3,981	-
Causal PBRS 2026.02		3,950	-
Baseline 2026.02		3,925	-
SAC Baseline 2026.02		3,925	-
Causal PBRS 2026.02		3,899	-
Baseline 2026.02		3,893	-
Causal PBRS 2026.02		3,884	-
Causal PBRS 2026.02		3,814	-
CQL 2026.02		3,766	-
CQL 2026.02		3,708	-
SAC Baseline 2026.02		3,640	-
Causal PBRS 2026.02		3,632	-
Trex 2026.02		3,603	-
CQL 2026.02		3,600	-
Baseline 2026.02		3,580	-
CQL 2026.02		3,424	-
SAC+DSAC 2026.02		3,297.4	-
CQL 2026.02		3,243	-
CQL 2026.02		3,132	-
T-REX 2026.02		2,830	-
Trex 2026.02		2,663	-
SAC+VF 2026.02		2,626.4	-
SAC+VD 2026.02		2,533.9	-
Recurrent SAC 2026.02		2,210	-
Recurrent SAC 2026.02		2,181	-
Recurrent SAC 2026.02		1,351	-
Recurrent SAC 2026.02		1,124	-
Recurrent SAC 2026.02		1,105	-
Recurrent SAC 2026.02		942	-
RPIDDPG 2025.06		319.9	245
DDPG 2025.06		200.3	165.7