GPT Evaluation

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Harmlessness	GPT-4 Evaluation Template T2 (overall)	Win Rate89.99		5

Showing 1 of 1 rows