Share your thoughts, 1 month free Claude Pro on usSee more

Offline-to-Online Reinforcement Learning on D4RL 6 environments min-max normalized (averaged)

0.031Normalized Regret

SMAC

Updated 5mo ago

Evaluation Results

Method	Links
SMAC 2026.02		0.031
SMAC 2026.02		0.09
SMAC 2026.02		0.226
SMAC 2026.02		0.38
CalQL/CQL 2026.02		0.442
CalQL/CQL 2026.02		0.448
IQL 2026.02		0.471
CalQL/CQL 2026.02		0.482
IQL 2026.02		0.494
IQL 2026.02		0.508
TD3+BC 2026.02		0.545
TD3+BC 2026.02		0.562
CalQL/CQL 2026.02		0.614
IQL 2026.02		0.653
TD3+BC 2026.02		0.654
TD3+BC 2026.02		0.962