Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Inverted Double Pendulum

9,359.92Avg Episode Reward

SAC

Updated 2mo ago

Evaluation Results

Method	Links
SAC 2023.11		9,359.92
ESPL 2023.11		9,359.9
A2C 2023.11		9,359.81
TD3 2023.11		9,359.25
ACKTR 2023.11		9,359.06
PPO 2023.11		9,356.59
DDPG 2023.11		9,347.1
TRPO 2023.11		9,188.43
DSP 2023.11		9,149.9
Regression 2023.11		637.2
R2PO 2026.05		254.04
R2PO 2026.05		158.51
ProPS+ 2026.05		128.81
ProPS 2026.05		112.18
TRPO 2026.05		98.25
ProPS+ 2026.05		86.71
TRPO 2026.05		86.04
ProPS 2026.05		79.44