Reinforcement Learning

Benchmarks

Dataset Name	SOTA Method	Metric
Hopper v5	SAC+DBC(*)	Average Return3,732.5	101	4mo ago
MountainCarContinuous v0	R2PO	Average Agent Reward98.75	65	2mo ago
LunarLanderContinuous v2		Mean Reward533.6	65	2mo ago
Ant v5	QVPO+DBC(*)	Average Return6,633.8	57	4mo ago
Atari 2600 Games Breakdown	PPO with RUDDER	Avg Reward (baseline)1,399,753	52	4mo ago
Atari 100k		Alien Score7,128	50	18d ago
CartPole v0	CBRL	Mean Score200	48	3mo ago
Halfcheetah v5		Average Return13,996.2	47	2mo ago
Walker2D v5	TD3+DBC(*)	Average Return6,335.5	45	3mo ago
Atari 2600 MONTEZUMA'S REVENGE	Go-Explore	Score18,003,200	45	4mo ago
Acrobot v1		Mean Return89.37	42	2mo ago
Walker	CT-SAC	Average Returns1,035.52	38	4mo ago
HalfCheetah v3	DACER	Mean Reward17,177	34	3mo ago
Humanoid	Open-Ended Neural Reward Functions	Zero-Shot Reward90,921,063	32	2mo ago
Lunar Lander POMDP	VOMCPOW	Performance Score56.09	30	2mo ago
the Room (test)		Average Total Reward per Episode128	30	2mo ago
Hopper v4	pop-SAN	Average Return27,721,263	30	1mo ago
CartPole Pure		Average Reward (2/0.5)200	30	4mo ago
MountainCar (Pure)	CQL	Avg Reward (gamma=0.01)-44.6	30	4mo ago
LunarLander v2	Advantage-weighting	Final Return2,292	30	2mo ago
CartPole	SALSA-RL	Average Reward1,000	29	2mo ago
MuJoCo Half-Cheetah	SiMPO-Lin. Neg.	Average Return13,907	28	4mo ago
InvertedPendulum v2	TTOpt	Mean Reward1,000	27	3mo ago
Ant v4	S-PLIF	Average Return5,527	26	29d ago
Hopper v3	DACER	Average Final Return4,104	26	3mo ago

Showing 25 of 1015 rows

...