ID

Benchmarks

Task Name	Dataset Name	SOTA Result
Forward evolution (LRC violation prediction)	ID dataset	Pinch1,202	24
Document-level phenotype concept recognition	ID-68	Precision94.11	12
Abdominal Aortic Aneurysm Segmentation	ID n = 20 (test)	DSC0.974	10
Detoxification	ID	TP Score55	6
Response Quality Evaluation	ID in-domain (150 samples)	Count134	4
Open-ended Dialogue	ID Average	Win Rate72.2	4
LLM response quality prediction	ID Claude 3.5 Haiku 20241022 (test)	RMSE0.45	3

Showing 7 of 7 rows