Aggregated

Benchmarks

Task Name	Dataset Name	SOTA Result
Multitask LLM Evaluation	Aggregated MMLU, GSM8K, HumanEval	Average Accuracy88.33	42
General Language Evaluation	Aggregated MMLU, BoolQ, OpenBookQA, RTE	Average Accuracy70.4	42
Video understanding	Aggregated Average Score	Average Score62.7	36
Classification	Aggregated	Accuracy71.44	28
Feature Selection	Aggregated AL, CH, CO, EY, GE, HE, HI, HO, JA, MI, OT, YE	Rank2.17	17
Overall Performance	Aggregated All Benchmarks	Average Score40.3	12
General Language Proficiency	Aggregated GSM8K, TruthfulQA, TriviaQA, CNN/DM, MMLU	Average Score48.6	9
General Performance	Aggregated MMLU, HellaSwag, TruthfulQA, GSM8K, MATH, MBPP, HumanEval	Average Score40.35	9
Context Compression for Question Answering	Aggregated NQ, TQA, HQA, 2Wiki, Musique	EM34	8
Disentanglement	Aggregated	InfoM0.76	8
Selective Prediction	Aggregated Univariate, 1D, and 2D regression tasks (test)	SSE1.78	5
Disentanglement	Aggregated (Shapes3D, MPI3D, Falcor3D, Isaac3D)	InfoM Score0.65	5
General Reasoning Efficiency	Aggregated (Sudoku, Maze, ARC, DDE)	Fp Score3.04	4
Faithfulness Diagnosticity	Aggregated SST, Ev.Inf, AG, and M.RC	Alpha Score0.525	4
Instance-level search	Aggregated Mean All & Mean R1M (test)	Mean All0.601	2

Showing 15 of 15 rows