Share your thoughts, 1 month free Claude Pro on usSee more

Offline Multi-Agent Sequential Decision Making on LBF 11x11-6p-4f

96Win Rate

DLM-GRPO

Updated 2mo ago

Evaluation Results

Method	Links
DLM-GRPO 2026.04		96
DLM-SFT 2026.04		91
MADT 2026.04		85
OMIGA 2026.04		85
CFCQL 2026.04		77
MACQL 2026.04		69
TD3+BC 2026.04		30
BC 2026.04		28