BIXBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Biomedical Intelligence Evaluation	BixBench 205 (Evaluation)	Accuracy85.9	25
Automated auditing	BIXBench (Verified-50)	Recall (A)83.3	6
Open-ended scientific discovery	BixBench open-ended discovery (evaluation set)	ES Score4.74	5
Query-guided evaluation	BixBench V50	V50 Accuracy80	4
Quantitative reasoning and autonomous analysis	BixBench Human Verified-50	Accuracy83.33	3
Quantitative reasoning and autonomous analysis	BixBench-Verified-50 Full set	Accuracy90	3

Showing 6 of 6 rows