SAGE

Benchmarks

Task Name	Dataset Name	SOTA Result
Safety evaluation	SAGE-Eval	Safety90	18
Emotional Support Conversation	SAGE (test)	Sentience85.07	14
LLM-as-a-Judge Robustness	Sage (Hard)	Factuality (IPI)55.9	13
LLM-as-a-Judge Robustness	Sage Easy	Factuality Error (IPI)0.059	13
Emotional Support Dialogue	SAGE	Average Score72.1	12
Open-Ended Question Answering	SAGE Web Search	Weighted Recall (Com. Sci.)35.1	12
Short-Form Question Answering	SAGE Web Search	Accuracy (Com. Sci.)63.3	12
Cultural Reasoning	SAGE (test)	Accuracy97.57	10
Support-only Emotional Intelligence Evaluation	SAGE	Support Score39.6	4
Multi-hop Question Answering	SAGE Small-scale (evaluation)	# Search4.9	1

Showing 10 of 10 rows