Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on antmaze medium-play

85.6Score

Q-ALIGN DT

Updated 1mo ago

Evaluation Results

Method	Links
Q-ALIGN DT 2026.05		85.6
QCS-G 2024.02		84.8
POR 2024.02		84.6
GCIQL 2023.07		82.6
QCS-R 2024.02		81.6
QCS 2026.05		81.6
SQL 2024.02		80.2
SPQR 2024.01		80
QT 2026.05		78.6
TAP 2023.07		78
DWSL 2023.07		77.6
RORL 2022.06		76.3
IQL 2023.07		75.8
IQL+smoothing 2022.06		75.3
CQL 2023.07		72.8
RvS-G 2023.07		71.8
IQL 2022.06		71.2
IQL 2024.01		71.2
IQL 2024.02		71.2
IQL 2026.05		71.2
GCPC 2023.07		70.8
WGCSL 2023.07		63.2
CQL 2022.06		61.2
CQL-Min 2024.01		61.2
CQL 2024.02		61.2
CQL 2026.05		61.2
RvS-G 2024.02		58.1
ROMI+BCQ 2022.06		35.3
DC 2024.02		33.2
DC 2026.05		33.2
TD3+BC 2022.06		10.6
TD3+BC 2024.02		10.6
TD3+BC 2026.05		10.6
RvS-R 2024.02		4.5
RVS 2026.05		4.5
DT 2024.02		4.3
DT 2026.05		4.3
BC 2023.07		0.6
BC 2022.06		0
AWAC 2022.06		0
DT 2023.07		0
BC 2024.01		0
SAC-Min 2024.01		0
BEAR 2024.01		0