Share your thoughts, 1 month free Claude Pro on usSee more

Offline Goal-Conditioned Reinforcement Learning on puzzle-4x6-1B

9,100Success Rate

NS

Updated 4mo ago

Evaluation Results

Method	Links
NS 2025.12		9,100
DQC 2025.12		8,300
SHARSA 2025.12		6,400
DQC-naïve 2025.12		3,300
QC 2025.12		2,800
OS 2025.12		1,900
HIQL 2025.12		900
IQL 2025.12		600
HFBC 2025.12		400
FBC 2025.12		100