GPT-4o responses

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Honesty	GPT-4o-mini responses (Honesty)	Win Rate (GaaA)68.79		3
Robustness	GPT-4o-mini responses Robustness	GaaA Win Rate63.11		3

Showing 2 of 2 rows