Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on halfcheetah medium v2

4,452Average Score

LRT+Q

Updated 4mo ago

Evaluation Results

Method	Links
LRT+Q 2025.10		4,452	-	-	-	-	-	5.02
Q 2025.10		4,404	-	-	-	-	-	5.11
LRT 2025.10		3,526	-	-	-	-	-	3.61
ReBRAC 2026.03		66.4	-	-	-	-	-	-
SAID 2026.03		58.5	-	-	-	-	-	-
DQL* 2026.03		52.6	-	-	-	-	-	-
DQL 2026.03		51.1	-	-	-	-	-	-
DV 2026.03		50.4	-	-	-	-	-	-
RLDP 2026.03		49.08	-	-	-	-	-	-
SAID 2026.03		45.2	-	-	-	-	-	-
CQL 2026.03		44.4	-	-	-	-	-	-
HILP 2026.03		43.85	-	-	-	-	-	-
RORL 2022.06		43.6	58.6	49.5	38	43.5	28.2	-
Diffuser 2026.03		42.8	-	-	-	-	-	-
PSM 2026.03		42.64	-	-	-	-	-	-
SAC-10 2022.06		41.1	60.1	45.6	34.2	39.8	25.7	-
EDAC 2022.06		40	59.2	44.5	33	38.1	25	-
FB 2026.03		39.27	-	-	-	-	-	-
RORL 2022.06		37.2	57.4	44.5	29.7	37	17.7	-
BC 2026.03		36.1	-	-	-	-	-	-
SAC-10 2022.06		33.4	57.9	38.3	25.1	30.8	14.9	-
EDAC 2022.06		32.2	57	37	23.9	28.7	14.4	-
SAID 2026.03		5.8	-	-	-	-	-	-
DQL+SA 2026.03		2.4	-	-	-	-	-	-
DQL+SA 2026.03		2	-	-	-	-	-	-
SAID 2026.03		1.5	-	-	-	-	-	-
DQL+SA 2026.03		1.3	-	-	-	-	-	-