LLM Routing

Benchmarks

Dataset Name	SOTA Method	Metric
MMR-Bench		nAUC0.918	37	2mo ago
Heterogeneous four-agent system Gemma, Phi, Qwen (test)		Accuracy94	27	4mo ago
CEVAL and GSM8K (OOD)	NIRT-Router	Performance87.46	21	4mo ago
MMLU, CMMLU, etc. In-distribution	NIRT-Router	Performance80.69	21	4mo ago
Cold-start		Cost (Cost-first)0.0226	15	3mo ago
Agentic Evaluation (test)		Accuracy89.65	14	2mo ago
Average across Benchmarks (val)		Avg Top-1 Acc83	14	4mo ago
BBEH (val)		Top-1 Acc66.4	14	4mo ago
MEDMCQA (val)		Top-1 Acc96.3	14	4mo ago
SUPERGPQA (val)		Top-1 Acc0.776	14	4mo ago
MMLU-PRO (val)		Top-1 Acc91.5	14	4mo ago
BBEH		Top-1 Accuracy66.4	14	4mo ago
MedMCQA		Top-1 Acc96.3	14	4mo ago
SUPERGPQA		Top-1 Acc77.6	14	4mo ago
MMLU-PRO		Top-1 Acc91.5	14	4mo ago
MMLU-PRO, SUPERGPQA, MEDMCQA, BBEH (test)		MMLU-PRO Top-1 Acc91.5	14	4mo ago
RouterBench	CSCR	QNC1.66	14	3mo ago
In-domain datasets Cost First, alpha=0.8		Accuracy93	11	4mo ago
In-domain datasets Balance, alpha=0.5		Accuracy93	11	4mo ago
In-domain datasets Performance First, alpha=0.2		Accuracy93	11	4mo ago
OOD		Accuracy89	11	4mo ago
OOD datasets (test)		Accuracy89	11	4mo ago
RouterArena (Evaluation set)		Arena S Score80.72	9	1mo ago
Mixed-domain ShareGPT, WildChat, Chatbot Arena 10k episodes (test)		Average Cost914	9	2mo ago
Six datasets Average		Macro Accuracy75.9	9	2mo ago

Showing 25 of 66 rows