Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on MuJoCo Half-Cheetah

13,907Average Return

SiMPO-Lin. Neg.

Updated 4mo ago

Evaluation Results

Method	Links
SiMPO-Lin. Neg. 2026.03		13,907
SAC 2023.05		13,300
SPMD 2023.05		13,025
TD3 2026.03		9,820
Oracle-TC M2TD3 2024.06		9,536.92
Oracle-TC RARL 2024.06		9,474
Stacked TC M2TD3 2024.06		8,583.55
Optimal in Target 2024.11		8,543
Vanilla-TC M2TD3 2024.06		8,467.64
QVPO 2026.03		8,081
DARAIL 2024.11		7,067
DARC 2024.11		6,995
DR 2024.06		6,170.33
Stacked TC RARL 2024.06		6,130.71
Vanilla-TC RARL 2024.06		6,092.61
Oracle M2TD3 2024.06		4,930.18
DARC 2024.11		4,133
M2TD3 2024.06		4,000.98
Vanilla 2024.06		2,350.58
RARL 2024.06		206.71
Oracle RARL 2024.06		36.19
DACER 2026.03		13
SiMPO-Exp 2026.03		13
SiMPO-Square 2026.03		13
SiMPO-Linear 2026.03		13
QSM 2026.03		12
SAC 2026.03		10
DIPO 2026.03		10