Multi-task Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result
Aggregate Performance	Multi-task Evaluation Suite	Average Performance49	21
Model Merging	Multi-task Evaluation Suite Instruction, Math, Multilingual, Safety	Average Score1.015	9
Decoding	Multi-task Evaluation Suite Llama-3.2-1B (test)	MT Throughput (token/s)394.81	6

Showing 3 of 3 rows