Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Humanoid v5

5,906.7Performance Score

SAC+DBC(*)

Updated 3mo ago

Evaluation Results

Method	Links
SAC+DBC(*) 2026.02		5,906.7
QVPO+DBC(*) 2026.02		5,426.3
TD3+DBC(*) 2026.02		5,343.2
SAC+TQC 2026.02		5,269
SAC+CDQ 2026.02		5,207.1
QVPO+CDQ 2026.02		5,068.3
TD3+CDQ 2026.02		5,067.8
SAC+VF 2026.02		4,950.3
SAC+VD 2026.02		4,886.9
SAC+IQN 2026.02		4,729.2
SAC+DSAC 2026.02		3,442.6