Share your thoughts, 1 month free Claude Pro on usSee more

Full-Information Online Learning on FOL Gaussian rewards, Horizon Generalization [T=15 -> T=25] 1.0

57.36Max LR

GPT-4o mini

Updated 1mo ago

Evaluation Results

Method	Links
GPT-4o mini 2025.11		57.36	27.42	0.67
Trained GPT-4o mini 2025.11		53.29	25.63	0.62
FTRL 2025.11		39.59	27.21	0.64