Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on D4RL Medium-Replay Walker2d

97Normalized Score

PSPO

Updated 2mo ago

Evaluation Results

Method	Links
PSPO 2026.05		97
ADM 2026.05		95.6
DMG 2026.05		89.7
RAMBO 2026.05		89.2
EPQ 2026.05		85.3
TT 2023.06		82.6
TT 2023.06		82.6
MPDiffuser 2025.12		81.5
MPDiffuser+Rank 2025.12		81.2
Decision Stacks 2023.06		80.7
PMDB 2026.05		79.9
IDQL 2025.12		79.8
DMamba 2023.06		79.3
D-MPC 2025.12		78.8
CQL 2023.06		77.2
CQL 2023.06		77.2
LSTM 2023.05		77
CQL 2026.05		76.8
DD 2023.06		75
Decision Diffuser 2025.12		75
IQL 2023.06		73.9
RATE 2023.06		73.7
MambaDM 2023.06		73.4
IQL 2023.05		73.11
DD 2023.06		72.3
MR 2023.05		72.07
Planner 2025.12		71.8
PT 2023.05		71.27
DMamba 2023.06		70.9
MR 2023.05		68.79
TAP 2023.06		66.8
DT 2023.06		66.6
DT 2025.12		66.6
DT 2023.06		66.6
IQL 2025.09		66.36
Diffuser 2023.06		61.2
Diffuser 2025.12		61.2
IPL 2023.05		59.92
COMBO 2025.12		56
FQL+BC 2025.09		54.87
MOREL 2023.06		49.8
MOReL 2026.05		40.8
BC 2023.06		26
BC 2025.12		26
DROCO 2025.12		15.5
OTDF 2025.12		14.1
BREX 2023.05		10.3
IGDF 2025.12		9.5
IQL* 2025.12		9
DARA 2025.12		6.9
BOSA 2025.12		2.9
CQL* 2025.12		2