Share your thoughts, 1 month free Claude Pro on usSee more

Off-policy learning on Simulation Blocks 2-5 Cross-block averages

0.7216Average Value

Ma-style OPL

Updated 2mo ago

Evaluation Results

Method	Links
Ma-style OPL 2026.04		0.7216	0.1079	38.73
DR value only 2026.04		0.7176	0.1119	31.27
DR-LCB 2026.04		0.7175	0.112	31.01
CASP 2026.04		0.7147	0.1148	26.77
Plug-in 2026.04		0.7122	0.1173	44.98
Wang-style generator 2026.04		0.696	0.1335	43.5
Stagewise 2026.04		0.6771	0.1524	38.9