Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on Acrobot v1

89.37Mean Return

π-PRL

Updated 2mo ago

Evaluation Results

Method	Links
π-PRL 2026.05		89.37	-	-	-
πdisc.-PRL 2026.05		86.63	-	-	-
πcont.-PRL 2026.05		80.31	-	-	-
DiPRL 2026.05		79.93	-	-	-
DTSemNets 2026.05		78.98	-	-	-
VIPER (PPO) 2026.05		67.83	-	-	-
PPO 2026.05		62.57	-	-	-
SAC-AdaGamma 2026.05		-82.61	-	-	-
SAC 2026.05		-82.91	-	-	-
PPO 2026.05		-95.34	-	-	-
Classical 2026.05		-107.18	-	-	0.46
PPO-AdaGamma 2026.05		-115.186	-	-	-
Hybrid_F 2026.05		-125.71	-	-	0.54
GB-DQN 2025.12		-140.16	88.52	-	-
CTMC 2026.02		-147.16	71.06	-	-
Hybrid_FT 2026.05		-148.58	-	-	0.64
Sliding-DQN 2025.12		-149.59	85.72	-	-
Classical 2026.05		-150.1	-	-	0.64
Hybrid_T 2026.05		-154.09	-	-	0.66
DQN 2025.12		-154.82	85.56	-	-
Sample π 2026.02		-156.9	82.4	-	-
Classical 2026.05		-162.14	-	-	0.69
CTMC 2026.02		-164.69	84.03	-	-
Ensemble-DQN 2025.12		-166.32	97.39	-	-
Argmax heuristic 2026.02		-172.6	106.6	-	-
Classical 2026.05		-196.63	-	-	0.84
Classical 2026.05		-218.71	-	-	0.94
Classical 2026.05		-233.44	-	-	1
Hybrid_FP 2026.05		-245.62	-	-	1.05
Reset-DQN 2025.12		-264.58	130.77	-	-
Hybrid_P 2026.05		-273.76	-	-	1.17
Hybrid_P 2026.05		-304.7	-	-	1.31
Hybrid_P 2026.05		-309.2	-	-	1.32
Random 2026.02		-498	19.9	-	-
Hybrid_O 2026.05		-498.16	-	-	2.13
Hybrid_FO 2026.05		-498.54	-	-	2.14
Hybrid_FOTP 2026.05		-498.94	-	-	2.14
Random 2026.05		-499.02	-	-	2.14
Sat-EnQ 2025.12		-5,000	-	0	-
Bootstrapped DQN 2025.12		-7,518	-	85	-
Double DQN 2025.12		-7,715	-	90	-
DQN 2025.12		-8,013	-	95	-