Reinforcement Learning on Humanoid

90,921,063Zero-Shot Reward

Open-Ended Neural Reward Functions

Updated 2mo ago

Evaluation Results

Method
Open-Ended Neural Reward Functions 2022.02	90,921,063	-
SMAC 2026.01	4,625	-
AC-SGD 2026.01	4,539	-
AC-CG 2026.01	3,175	-
AC-Adam 2026.01	3,105	-
MAMBA + Minimum Attention 2025.05	2,553	-
MAMBA 2025.05	2,453	-
CT-SAC 2026.02	386.75	-
CT-SAC 2026.02	379.75	-
CT-SAC 2026.02	371.75	-
CT-TD3 2026.02	337.23	-
CT-TD3 2026.02	326.61	-
CT-TD3 2026.02	295.94	-
AC-KFAC 2026.01	260.8	-
SAC 2026.02	73.39	-
SAC 2026.02	39.28	-
TD3 2026.02	2.28	-
TD3 2026.02	2.24	-
SAC 2026.02	2.12	-
TD3 2026.02	2.11	-
q-Learning 2026.02	1.81	-
q-Learning 2026.02	1.59	-
TRPO 2026.02	1.39	-
TRPO 2026.02	1.33	-
TRPO 2026.02	1.3	-
q-Learning 2026.02	1.28	-
PPO 2026.02	1.18	-
PPO 2026.02	1.17	-
CPPO 2026.02	1.16	-
PPO 2026.02	1.11	-
CPPO 2026.02	1.08	-
CPPO 2026.02	1.04	-