Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Hopper v4

27,721,263Average Return

pop-SAN

Updated 1mo ago

Evaluation Results

Method	Links
pop-SAN 2026.02		27,721,263
MDC-SAN 2026.02		3,446,131
ANN 2026.02		3,410,164
ILC-SAN 2026.02		3,403,148
PT-LIF 2026.02		3,385,157
ANN-SNN 2026.02		3,098,281
DSN 2026.02		356,568
Vanilla LIF 2026.02		352,094
S-PLIF 2026.01		3,462
PLIF 2026.01		3,414
PLIF 2026.01		3,384
S-PLIF 2026.01		3,380
C-DSAC 2026.04		3,352
ReLU 2026.01		3,349
PDA 2026.03		2,944.3
FedNPG 2026.05		2,736
FedNPG-ADMM 2026.05		2,719
Fixed β 2026.06		2,616
PPO-Clip 2026.06		2,598
per-sample PPO-KL 2026.06		2,598
FedNPG-ADMM 2026.05		2,507
FedNPG 2026.05		2,468
FedNPG 2026.05		2,458
FedNPG-ADMM 2026.05		2,384
PPO 2026.03		2,329.7
Adaptive β 2026.06		2,236
TRPO 2026.03		2,017
NPG 2026.03		1,650.8
FedNPG 2026.05		1,644
FedNPG-ADMM 2026.05		1,473