ZebraArena

Benchmarks

Task Name	Dataset Name	SOTA Result
Agentic Reasoning	ZebraArena multi-turn Large	Accuracy82.24	2
Agentic Reasoning	ZebraArena multi-turn Medium	Accuracy88.14	2
Agentic Reasoning	ZebraArena multi-turn (Small)	Accuracy96.69	2

Showing 3 of 3 rows