Review

Benchmarks

Task Name	Dataset Name	SOTA Result
Personalized Generation	Review (test)	Accuracy95.76	10
Personalized Response Generation	Review Interpolated Users	Winrate84.6	8
Personalized Response Generation	Review Trained Users	Winrate92.3	8
Abstract Screening	Review 1 821 abstracts (Final Includes)	False Positives45	8
Full-Text Screening	Review 1	False Positives18	8
Document-Level Anomaly Detection	Review (test)	AUROC0.9594	7
Token-Level Anomaly Detection	Review (test)	AUROC0.8271	7
scoring	Review-5K	MAE1.957	5
Full-text inclusion screening	Review 2 (7741 abstracts)	False Positives (FP)87	5
Abstract Screening	Review 2 (Final Includes)	Metric-	0

Showing 10 of 10 rows