Share your thoughts, 1 month free Claude Pro on usSee more

Offline Reinforcement Learning on D4RL Adroit pen (human)

128.3Normalized Return

QQL

Updated 1mo ago

Evaluation Results

Method	Links
QQL 2025.11		128.3
MXQL 2025.11		122.1
IQL 2025.11		106.2
XQL 2025.11		105.3
ReBRAC 2026.02		103.5
ReBRAC 2025.12		103.2
BC 2025.11		99.7
QCS-R 2024.02		83.9
EPQ 2026.02		83.9
TD3+BC 2026.02		81.8
IQL 2026.02		81.5
IQL 2025.12		78.5
DPPO 2023.01		76.3
IDQL 2026.02		76
MoMo 2025.12		74.9
DC 2024.02		74.2
FAC 2026.02		73.9
ARMOR 2025.12		72.8
IQL 2024.02		71.5
BC 2025.12		71
SRPO 2026.02		69
MCQ 2026.02		68.5
CAC 2026.02		64
DT 2024.02		62.9
SPAR-PROJ 2026.05		62.7
CQL 2025.11		58.9
Diff-QL 2026.05		56.6
IQL 2023.01		53.8
Base 2026.05		53.5
PT+IQL 2023.01		53
FQL 2026.02		53
VIPO 2025.12		52.6
EDAC 2025.12		52.1
PLAS 2026.05		49.8
IDQL 2026.05		49.8
IQL 2026.05		47.5
EQL 2026.05		44.3
CQL 2023.01		44.2
CQL 2024.02		37.5
CQL 2026.02		37.5
PT+CQL 2023.01		31.6
MOBILE 2025.12		30.1
NEUBAY 2025.12		20.8
CQL 2026.05		14.9
MOPO 2025.12		10.7
TD3+BC 2025.11		10
SAC-RND 2026.02		5.6
BCQ 2026.05		2.2
LAPO 2026.05		2.2
AWAC 2026.05		1
SPAR-MLP 2026.05		0.1
TD3+BC 2026.05		0
CQL-AW 2026.05		-3