Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Halfcheetah v5

13,996.2Average Return

SAC+TQC

Updated 2mo ago

Evaluation Results

Method	Links
SAC+TQC 2026.02		13,996.2	-	-
TD3+DBC(*) 2026.02		13,787.8	-	-
QVPO+DBC(*) 2026.02		13,182.1	-	-
SAC+DBC(*) 2026.02		13,120.2	-	-
SAC+DSAC 2026.02		12,974	-	-
SAC+CDQ 2026.02		12,776.4	-	-
Full State SAC 2026.02		12,400	-	-
Full State SAC 2026.02		12,400	-	-
QVPO+CDQ 2026.02		12,103.9	-	-
TD3+CDQ 2026.02		11,679	-	-
SAC+IQN 2026.02		10,930.2	-	-
Recurrent SAC 2026.02		10,057	-	-
Recurrent SAC 2026.02		9,875	-	-
TFM-S3-TD3 2026.04		9,863.4	40.5	62.7
CQL 2026.02		9,748	-	-
CQL 2026.02		9,748	-	-
Random Search TD3 2026.04		9,686.3	38.4	66
TD3 2026.04		9,624.1	39.6	71.3
TFM-S3-TD3 2026.04		9,576.9	37.7	68
T-REX 2026.02		9,120	-	-
Trex 2026.02		9,106	-	-
Causal PBRS 2026.02		8,954	-	-
Causal PBRS 2026.02		8,949	-	-
Baseline 2026.02		8,931	-	-
SAC Baseline 2026.02		8,931	-	-
SAC+VF 2026.02		8,199.5	-	-
Recurrent SAC 2026.02		7,957	-	-
Recurrent SAC 2026.02		7,939	-	-
Recurrent SAC 2026.02		7,939	-	-
Recurrent SAC 2026.02		7,378	-	-
SAC+VD 2026.02		4,284.8	-	-
T-REX 2026.02		2,059	-	-
Trex 2026.02		2,057	-	-
Causal PBRS 2026.02		2,055	-	-
Causal PBRS 2026.02		2,051	-	-
CQL 2026.02		2,039	-	-
CQL 2026.02		2,039	-	-
Baseline 2026.02		2,013	-	-
SAC Baseline 2026.02		2,013	-	-
Causal PBRS 2026.02		1,103	-	-
Causal PBRS 2026.02		1,103	-	-
SAC Baseline 2026.02		896	-	-
Baseline 2026.02		895	-	-
T-REX 2026.02		615	-	-
Trex 2026.02		612	-	-
CQL 2026.02		373	-	-
CQL 2026.02		373	-	-