Share your thoughts, 1 month free Claude Pro on usSee more

Offline Multi-Agent Reinforcement Learning

Benchmarks

Dataset Name	SOTA Method	Metric
Multi-agent MuJoCo Hopper expert, medium, medium-replay, medium-expert		Return3,621	12	4mo ago
MPE World (Random)	SPaCQL	Average Normalized Score94.3	8	3mo ago
MPE World (Medium)	PLCQL	Average Normalized Score104.9	8	3mo ago
SMAC Expert Marine-Hard	HiSSD	Performance at 3m99.4	8	4mo ago
MaMuJoCo Half-C (Random)	SPaCQL	Average Normalized Score43.8	7	3mo ago
MaMuJoCo Half-C (Medium-Replay)	PLCQL	Average Normalized Score73.1	7	3mo ago
MaMuJoCo Half-C Medium	IQL	Avg Normalized Score81.3	7	3mo ago
MaMuJoCo Half-C Expert	CFCQL	Average Normalized Score118.5	7	3mo ago
MaMuJoCo 2-HalfCheetah (Random)	CFCQL	Average Return39.7	6	1mo ago
MaMuJoCo 2-HalfCheetah (Med-Replay)	OMSD	Average Return78.9	6	1mo ago
MaMuJoCo 2-HalfCheetah (Expert)	OMSD	Average Return119	6	1mo ago
Warehouse Small (11x20)	AlberDICE	Mean Performance (N=2)5.97	6	4mo ago
Warehouse Tiny (11x11)	AlberDICE	Mean Performance (N=2)11.15	6	4mo ago
Bridge (Mix)	AlberDICE	Mean Return-1.29	6	4mo ago
Bridge Optimal	AlberDICE	Mean Return-1.27	6	4mo ago
SMAC	DLM-GRPO	3s5z Win Rate97	5	2mo ago
Multi-agent MuJoCo Swimmer (e, m1, m2, e-m1, e-m2, m1-m2)	OMIGA	Return430.7	5	4mo ago
Multi-agent MuJoCo HalfCheetah k=0 (e, m1, m2, e-m1, e-m2, m1-m2)	FACMAC+B3C	Return1,396.8	5	4mo ago
Multi-agent MuJoCo HalfCheetah expert, medium, medium-replay, medium-expert	FACMAC+B3C	Return5,413.7	5	4mo ago
Multi-agent MuJoCo Ant expert, medium, medium-replay, medium-expert	FACMAC+B3C	Return2,162.8	5	4mo ago
SMAC corridor (medium-poor)	OMIGA	Average Score9.7	5	4mo ago
SMAC corridor (good-medium)	OMIGA	Average Score14.02	5	4mo ago
SMAC corridor (good-poor)	OMIGA	Average Score13.01	5	4mo ago
SMAC 6h_vs_8z (medium-poor)	OMIGA	Average Score11.85	5	4mo ago
SMAC 6h_vs_8z (good-medium)	OMIGA	Average Score12.05	5	4mo ago

Showing 25 of 33 rows