Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Swimmer

260.35Average Returns

R2PO

Updated 2mo ago

Evaluation Results

Method	Links
R2PO 2026.05		260.35
CG-FPD 2026.03		247.54
DF-CWP-CP 2026.03		219.82
ProPS+ 2026.05		162.05
DACER 2026.03		116
QSM 2026.03		108
PPO 2026.03		95
ProPS 2026.05		89.22
TD3 2026.03		88
SAC 2026.03		87.84
SAC 2026.03		85
QVPO 2026.03		83
SiMPO-Exp 2026.03		69
SiMPO-Linear 2026.03		68
SiMPO-Lin. Neg. 2026.03		66
SiMPO-Square 2026.03		52
A2C 2026.03		49.08
DIPO 2026.03		46
TRPO 2026.05		44.6
SMAC 2026.01		28.5
AC-KFAC 2026.01		24.2
AC-CG 2026.01		23.8
AC-Adam 2026.01		17.3
AC-SGD 2026.01		12.4