OpenAI

Benchmarks

Task Name	Dataset Name	SOTA Result
Harmful prompt detection	OpenAI	F1 Score81.3	29
Text-based safety moderation	OpenAI	F1 Score82.3	26
Question Answering	OpenAI (in-domain)	Accuracy0.8956	12
Clustering	OpenAI	Clustering Time (s)13.4	4
Diverse Nearest Neighbor Search	OpenAI dataset	Search Cost0.331	4
Content Moderation	OpenAI Out-of-Distribution	Pornography Score82.6	2
Vector Similarity Search	OpenAI	Build Time (s)33.63	2

Showing 7 of 7 rows