Multi-agent Reasoning on Reasoning Benchmarks Cooperative AutoGen framework (test)

83.58Overall Accuracy

MARSHAL (Generalist, 8B)

Updated 5mo ago

Evaluation Results

Method	Links
MARSHAL (Generalist, 8B) 2025.10		83.58	94.4	95	85.04	70	95	90.04	55.56
Qwen3-8B 2025.10		79.68	88.8	95.91	83.07	60	89.19	89.3	51.52