Average of Benchmarks

Benchmarks

Task Name	Dataset Name	SOTA Result
Model Merging	Average of 8 benchmarks	Average Accuracy52.79	72
Best-of-N Reranking	Average of 7 benchmarks (including AIME24, LeetCode) (test)	Average Accuracy52	42
Knowledge Assessment and Commonsense Reasoning	Average of 8 Benchmarks (ARC-C, ARC-E, BoolQ, HellaS, LamOp, Piqa, WinoG, MMLU)	Accuracy72.99	10
Text-to-SQL	Average of 5 benchmarks (Spider-dev, Spider-DK, Spider-Realistic, Spider-test, Bird-dev)	Accuracy70.2	6

Showing 4 of 4 rows