Bio

Benchmarks

Task Name	Dataset Name	SOTA Result
Question Answering	Bio (test)	LLM-Judge Score82.9	105
Question Answering under PIA attack	Bio	Accuracy75.2	60
Long-form Generation	Bio	LLM-Judge Score81	59
Factuality Correction	BIO (test)	Precision51	44
Retrieval-Augmented Generation	Bio	Accuracy74.02	42
Uncertainty Quantification	BIO	PCC-0.129	32
Dynamic Retrieval-Augmented Generation	Bio (test)	Accuracy83.1	24
Factuality Correction	BIO dataset	Factual Precision93	24
Conformal Prediction	bio (test)	Marginal Coverage90	19
Question Answering	Bio	Few-Shot Accuracy84.3	17
Long-form Biography Generation	Bio FactScore	FactScore81.2	17
Question Answering	Bio poison @ Position 10, k=10 (test)	Robustness Score (LLM-J)79.9	15
Question Answering	Bio poison @ Position 1, k=10 (test)	Rob. LLM-J Score79.3	15
Scientific Reasoning	bio	Pass Rate33.9	14
Topic Modeling	Bio	IRBO100	13
Topic Modeling	Bio	NPMI0.191	13
Document Clustering	Bio (test)	NMI0.557	13
Kernel Density Estimation	bio D = 5, N = 50000, h* = 0.000567161 (rnd)	Result (Scale 1)491	10
Tabular Classification	BIO M (test)	Macro F180.1	9
Regression	bio	Coverage90.57	8
Factuality Evaluation	BIO (test)	FS Score88.9	8
AMR Parsing	BIO	Smatch62.8	8
Factuality Evaluation	Bio	Precision14.1	6
Long-form generation	Bio	PIA RLLMJ Score69.8	6
Retrieval Question Answering	Bio	MRR0.15	6

Showing 25 of 31 rows