Utility Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
Just-Eval		Just-Eval Average Score4.83	50	2mo ago
MMLU		MMLU Score49.5	45	2mo ago
AgentDojo	GLM-4.5	Utility78.4	32	3mo ago
SLIMORCA (test)	TOSS-Pro	Score68.85	24	4mo ago
MATH500	RealSafe-R1	Pass@1 Accuracy93.6	22	2mo ago
GPQA Diamond		Accuracy (pass@1)53	22	2mo ago
MMLU	SafeDecoding	Accuracy (pass@1)78	22	2mo ago
NQ-Open	CNT	Delta NQ-Open5.13	17	4mo ago
MMLU	CNT	ΔMMLU0.2	17	4mo ago
MMLU, GSM8K	PALETTE	MMLU Accuracy70.4	16	2mo ago
Anchor Utility Dataset	CDA	Anchor-PPL5.24	16	4mo ago
Utility Benchmark	SFT	Utility Score8.08	15	1mo ago
GM	TVAE	Balanced Acc66.6	13	4mo ago
CR		Balanced Acc68.6	13	4mo ago
CC	DP-CTGAN	Balanced Acc67.3	13	4mo ago
BM	TVAE	Balanced Acc60.3	13	4mo ago
AD		Balanced Accuracy81.8	13	4mo ago
ScienceQA (S-QA)	CMRM_dataset	Accuracy73.2	13	4mo ago
LLaVA-Bench Coco	ShareGPT4V	Score92.3	13	4mo ago
Downstream Tasks	DAPT (nontoxic)	Average Accuracy63.4	12	4mo ago
BC		Balanced Acc72.1	11	4mo ago
LM Utility Evaluation Dataset	CB	Utility Score9.12	8	3mo ago
MMbench and DocVQA (test)		MMbench Score87.02	7	4mo ago
Pooled Cross-Model Evaluation Suite		Utility95.9	4	1mo ago
XSTest Safe Prompts	FedDPO	Compliance97.2	3	3mo ago

Showing 25 of 26 rows