Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on halfcheetah medium-replay

68.4Normalized Score

LAWM

Updated 1mo ago

Evaluation Results

Method	Links
LAWM 2025.12		68.4
C-LAP 2025.12		65
Anti-exploration Method 2026.02		62
Q-ALIGN DT 2026.05		57.1
GPC-SAC 2026.02		55.7
COMBO 2023.10		55.1
SAC-RND 2026.02		54.9
QCS 2026.05		54.1
TD3+BC 2025.12		53.9
DMG 2026.02		51.4
Proposed 2023.10		49.3
QT 2026.05		48.9
TD3+BC 2023.10		48.3
ATAC 2023.10		48
IDM-TD3+BC 2025.12		46.6
CQL 2024.02		46.2
CQL 2026.02		45.5
TD3-CVAE 2026.02		45.3
TD3+BC 2026.05		44.6
IQL 2023.10		44.2
IQL 2026.02		44.2
IQL 2026.05		44.1
O-DICE 2026.02		44
LSDT 2026.05		42.9
CQL 2023.10		41.9
DC 2026.05		41.3
RADT 2026.05		41.3
CGDT 2026.05		40.4
OptiDICE 2023.10		39.8
DM 2026.05		39.6
BEAR 2023.10		38.6
BCQ 2023.10		38.2
DT 2026.05		36.6
QDT 2024.02		35.6
C-LAP 2025.12		34.6
DT 2024.02		34.1
DT 2024.02		33
QDT 2024.02		32.8
STC 2026.02		26.7
DVDF-OTDF 2025.12		25.1
OTDF 2026.02		21.5
IQL 2026.02		20.1
BOSA 2026.02		20
DVDF-IGDF 2025.12		19.4
OTDF 2025.12		17.9
DARA 2026.02		17.6
SRPO 2026.02		17.5
IGDF 2025.12		14.8
IGDF 2026.02		14.4
TD3+BC 2025.12		14
IQL 2025.12		12.5
BOSA 2025.12		9.5
DARA 2025.12		8.6
CQL 2024.02		7.8