Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on Maze2D medium v1

166.82Normalized Return

Inverter

Updated 2mo ago

Evaluation Results

Method	Links
Inverter 2026.05		166.82	1.2
Diffuser 2026.05		130.07	22.7
ReBRAC 2026.05		105.11	31.67
SAC-N 2026.05		88.61	18.72
CQL 2026.05		86.11	9.68
TD3+BC 2026.05		59.45	36.25
EDAC 2026.05		57.04	3.45
AWAC 2026.05		52.88	55.12
PrivORL-j 2025.12		49.3	-
PrivORL-j 2025.12		38	-
PrivORL-j 2025.12		35	-
IQL 2026.05		34.85	2.72
DP-Transformer 2025.12		32.8	-
DT 2026.05		31.71	26.33
PrivORL-j 2025.12		31.5	-
PrivORL-j 2025.12		31.1	-
DP-Transformer 2025.12		26.6	-
PrivORL-j 2025.12		23.4	-
DP-Transformer 2025.12		19	-
DP-Transformer 2025.12		18.1	-
PrivORL-j-U 2025.12		16.4	-
BC-10% 2026.05		14.25	2.33
PrivORL-j-U 2025.12		14.1	-
PrivORL-j-U 2025.12		13.5	-
PrivORL-j-U 2025.12		10.8	-
DP-Transformer 2025.12		10.2	-
DP-Transformer 2025.12		7.6	-
PrivORL-j-U 2025.12		6.7	-
PrivORL-j-U 2025.12		5.5	-
BC 2026.05		0.79	3.25