Model-Query Evaluation

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Correctness Prediction	Model-Query Evaluation (112 language models, 10 public benchmarks) (test)	Accuracy (Prediction)70.12		9
Model Routing	Model-Query Evaluation (test)	Routing Accuracy (%)64.7		9

Showing 2 of 2 rows