Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on hopper medium-replay

113Normalized Score

Proposed

Updated 1mo ago

Evaluation Results

Method	Links
Proposed 2023.10		113
Anti-exploration Method 2026.02		103.1
ATAC 2023.10		102.5
Q-ALIGN DT 2026.05		102.2
QT 2026.05		102
DMG 2026.02		101.9
SAC-RND 2026.02		100.5
QCS 2026.05		100.4
O-DICE 2026.02		99.9
GPC-SAC 2026.02		97.5
RADT 2026.05		95.7
DM 2026.05		95.4
IQL 2023.10		94.7
IQL 2026.02		94.7
DC 2026.05		94.2
Exp. Weight 2021.06		94.1
LSDT 2026.05		93.9
CGDT 2026.05		93.4
IQL 2026.05		92.1
COMBO 2023.10		89.5
I-TAP 2026.02		84.43
L-MAP 2026.02		83.99
DT 2026.05		82.7
Easy BCQ 2021.06		77.3
I-TAP 2026.02		75.22
Rev. KL Reg. 2021.06		71
L-MAP 2026.02		70.06
DT 2024.02		63.7
TD3+BC 2026.05		60.9
I-TAP 2026.02		56.96
QDT 2024.02		52.1
DT 2024.02		50.8
L-MAP 2026.02		50.79
CQL 2024.02		48.6
Fu et al. 2021.06		48.6
TD3-CVAE 2026.02		46.7
TD3+BC 2023.10		44.4
DT 2026.02		39.22
QDT 2024.02		38.7
OptiDICE 2023.10		36.4
CQL 2026.02		35.9
BEAR 2023.10		33.7
BCQ 2023.10		33.1
DT 2026.02		33.03
CQL 2023.10		32.6
DT 2026.02		30.17
BC 2021.06		21.2
CQL 2024.02		7.7
DVDF-IGDF 2025.12		7.4
DVDF-OTDF 2025.12		5.6
OTDF 2025.12		4.6
IGDF 2025.12		4.1
BOSA 2025.12		3.7
DARA 2025.12		3.5
IQL 2025.12		2.3