Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on halfcheetah medium

68.2Normalized Score

Anti-exploration Method

Updated 1mo ago

Evaluation Results

Method	Links
Anti-exploration Method 2026.02		68.2
SAC-RND 2026.02		66.6
GPC-SAC 2026.02		60.8
Proposed 2023.10		58.1
DMG 2026.02		54.9
COMBO 2023.10		54.2
ATAC 2023.10		53.3
IQL 2023.10		47.4
O-DICE 2026.02		47.4
IQL 2026.02		47.4
CQL 2026.02		47
CQL 2024.02		44.4
TD3-CVAE 2026.02		43.2
DT 2024.02		42.4
QDT 2024.02		42.4
STC 2026.02		42.4
QDT 2024.02		42.3
DT 2024.02		42.1
BEAR 2023.10		41.7
DARA 2026.02		41.2
BCQ 2023.10		40.7
OTDF 2026.02		40.7
IQL 2026.02		39.6
BOSA 2026.02		38.9
OptiDICE 2023.10		38.2
CQL 2023.10		37.2
SRPO 2026.02		36.9
IGDF 2026.02		36.6
TD3+BC 2023.10		27.8
DVDF-IGDF 2025.12		26.7
OTDF 2025.12		24.6
DVDF-OTDF 2025.12		22.9
IGDF 2025.12		22.6
BCQ 2026.02		20.23
AWAC 2026.02		19.69
IQL 2025.12		18.7
BOSA 2025.12		17.3
DARA 2025.12		16.1
QDFM 2026.02		4.92
AWBC 2026.02		2.22
CQL 2024.02		1
GreedyQ 2026.02		-0.23
CQL 2026.02		-0.58