Share your thoughts, 1 month free Claude Pro on usSee more

Sentence-level error detection on DeltaBench CoT Diagnosis 1.0 (test)

43.2Precision

GPT-5 (BIG-Bench Prompt)

Updated 2mo ago

Evaluation Results

Method	Links
GPT-5 (BIG-Bench Prompt) 2026.03		43.2	65.8	47
ReasonDiag 2026.03		30.6	80.1	38.6
GPT-5 (DeltaBench Prompt) 2026.03		5.1	4.1	4.4