Adversarial Reinforcement Learning on Connect Four 50% optimal adversary (test-time)

0.11Average Return

ARDT

Updated 5mo ago

Evaluation Results