Share your thoughts, 1 month free Claude Pro on usSee more

Multi-fidelity Bandit Optimization on LLM-as-a-judge residual-mismatch Λ=128000 (test)

4,023.4Mean Cost-Weighted Pseudo-Regret

TACC

Updated 2mo ago

Evaluation Results

Method	Links
TACC 2026.05		4,023.4	247.3
UCB 2026.05		5,083.2	286.8
DNC 2026.05		5,201	289.7
MF-UCB 2026.05		5,359.1	281.8