Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Ant v5

6,633.8Average Return

QVPO+DBC(*)

Updated 4mo ago

Evaluation Results

Method	Links
QVPO+DBC(*) 2026.02		6,633.8
SAC+DBC(*) 2026.02		6,501.4
QVPO+CDQ 2026.02		6,373.2
SAC+TQC 2026.02		6,342.6
SAC+CDQ 2026.02		6,121.8
TD3+DBC(*) 2026.02		5,306
SAC 2025.12		4,477.33
TD3+CDQ 2026.02		4,257
SAC - H-EARS 2026.03		4,183
TD3 - H-EARS 2026.03		4,125
SAC 2025.12		4,067.61
Full State SAC 2026.02		4,000
Full State SAC 2026.02		4,000
SAC+VD 2026.02		3,850.4
SAC 2025.12		3,761.98
SAC Baseline 2026.02		3,750
T-REX 2026.02		3,662
TD3 - Vanilla 2026.03		3,570
Trex 2026.02		3,536
SAC+IQN 2026.02		3,487.4
Baseline 2026.02		3,474
Causal PBRS 2026.02		3,389
CQL 2026.02		3,190
CQL 2026.02		3,169
SAC - Vanilla 2026.03		3,157
Causal PBRS 2026.02		3,093
SAC Baseline 2026.02		3,084
Baseline 2026.02		3,082
Causal PBRS 2026.02		2,963
T-REX 2026.02		2,830
Causal PBRS 2026.02		2,818
CQL 2026.02		2,792
CQL 2026.02		2,781
Trex 2026.02		2,663
SAC+VF 2026.02		2,650.3
SAC 2025.12		2,619.72
SAC+DSAC 2026.02		2,013.2
Recurrent SAC 2026.02		1,225
Recurrent SAC 2026.02		1,221
Recurrent SAC 2026.02		994
RSA2C-KME 2025.12		960.36
RSA2C-CME 2025.12		959.65
RSA2C-KME 2025.12		958.54
RSA2C-KME 2025.12		957.37
Recurrent SAC 2026.02		957
RSA2C-KME 2025.12		954.13
RSA2C-CME 2025.12		953.84
RSA2C-CME 2025.12		948.86
RSA2C-CME 2025.12		934.15
DDPG - Vanilla 2026.03		610
PPO - H-EARS 2026.03		501
DDPG - H-EARS 2026.03		456
PPO - Vanilla 2026.03		376
PPO 2025.12		155.64
PPO 2025.12		32.47
PPO 2025.12		17.34
PPO 2025.12		-11.15