Offline Reinforcement Learning on D4RL halfcheetah v2 (medium-replay)

76.9Normalized Score

CQL

Updated 1mo ago

Evaluation Results

Method	Links
CQL 2022.10		76.9
PhyB 2026.05		74.7
PMDB 2022.10		71.7
PMDB 2022.10		71.7
PMDB 2026.05		71.7
MOPO 2026.02		69.2
RAMBO 2022.10		68.7
RAMBO 2026.05		68.7
ADM 2026.05		67.6
EPQ 2026.05		62
EDAC 2022.10		61.3
EDAC 2022.10		61.3
EDAC-10 2026.02		60.1
Uncertainty-Aware Rank-One MIMO Q Network 2026.02		59.9
CPED 2023.01		55.8
COMBO 2024.05		55.1
MOPO 2023.11		53.1
MOPO 2024.05		53.1
SPOT 2023.01		52.2
FQL 2026.05		52.2
DMG 2026.05		51.4
BEAR 2022.10		48.6
BRAC 2022.10		48.6
BRAC-v 2026.01		47.7
CQL 2026.01		46.2
CQL 2023.01		45.5
CQL 2026.02		45.5
BRAC 2022.10		45.3
CQL 2022.10		45.3
CQL 2026.05		45.3
PBRL 2026.02		45.1
TD3+BC 2023.01		44.6
TD3+BC 2026.01		44.6
TD3-BC 2026.02		44.6
MOREL 2022.10		44.5
MOReL 2022.10		44.5
MOReL 2026.05		44.5
IQL 2023.01		44.2
IQL 2026.01		44.2
TD3+BC 2026.05		43.3
LSDT 2026.01		42.9
TAILO 2023.11		42.8
IQL 2026.02		42.5
AWAC 2023.01		40.5
MOReL 2023.11		40.2
MOREL 2024.05		40.2
BEAR 2022.10		39.4
VDT 2026.01		39.4
DD 2024.05		39.3
BCQ 2026.02		39
AdaptDiffuser 2024.05		38.3
Onestep RL 2023.01		38.1
DDT 2026.01		37.8
Diffuser 2024.05		37.7
BC 2022.10		37.6
BC 2022.10		37.6
BC 2023.01		36.6
DT 2023.01		36.6
BEAR 2026.02		36.3
DT 2026.01		36.2
UWAV 2026.02		35.9
DROCO 2025.12		26.9
BOSA 2025.12		26.3
CQL 2025.12		23.6
IGDF 2025.12		22.9
IQL 2025.12		22.1
DARA 2025.12		21.6
OTDF 2025.12		15.6