SOTA Regret Minimization on KL-regularized Bandits Preference w/ Linear Reward and PapersWithCode

2Regret

Online Iterative GSHF

Updated 1mo ago

Evaluation Results

Method	Links
Online Iterative GSHF 2026.03		2	-	-