Policy Optimization

Benchmarks

Dataset Name	SOTA Method	Metric
S-LQR (test)	PPO	Mean (± Std)109.86	156	2mo ago
Office World MAP0	QR-MAXRM	Avg Training Steps4,150	18	5mo ago
Pandemic	Linear Max-Min	True Performance3.65	8	3mo ago
Traffic	ORPO	True Outcome16.91	8	3mo ago
Multi-Armed Bandits	Log-barrier	Sample Complexity-7	8	4mo ago
Office World Map 3, Exp 5	QR-MAXRM	Average Training Steps5,806	7	5mo ago
Office World Map 2 Exp 5	QR-MAXRM	Average Training Steps3,767	7	5mo ago
Office World Map 4 Exp 6	QR-MAXRM	Average Training Steps5,630	7	5mo ago
Office World Map 1, Exp 5	QR-MAXRM	Average Training Steps3,125	7	5mo ago
Office World MAP4	QR-MAXRM	Average Training Steps5,630	7	5mo ago
Office World MAP1	QR-MAXRM	Avg Training Steps3,125	7	5mo ago
Glucose		True Outcome6.3	6	3mo ago
10 agents, random subsets of warehouses (test)	max-quantile	Gini Index0.0625	6	5mo ago
5 symmetric agents, one per warehouse (test)	max-quantile	Gini Index0.0188	6	5mo ago
RLHF	ORPO	True Score8.3	5	3mo ago
MuJoCo Suite Summary		Average Normalized Performance100	5	5mo ago
MuJoCo HalfCheetah H=40		Return49.1	5	5mo ago
MuJoCo HalfCheetah H=20		Return13.3	5	5mo ago
MuJoCo HalfCheetah H=10	OFF-SL	Return2.8	5	5mo ago
MuJoCo Walker2d H=40		Return221.1	5	5mo ago
MuJoCo Walker2d H=20		Return60.7	5	5mo ago
MuJoCo Hopper H=40		Return71	5	5mo ago
Policy Action Space	Policy gradient	Preprocessing Time0	1	5mo ago
Trajectory Data Offline RL	-	-	0	1mo ago
s-rectangular Robust MDP Discounted Reward	-	-	0	5mo ago

Showing 25 of 28 rows