GPT-4

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Rationale Generation	GPT-4 full-duplex audio	Mean Rating7.07		1
Claim-level Uncertainty Quantification	GPT-4 Arabic (Manual Annotation)	Metric-		0

Showing 2 of 2 rows