Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning Episode Classification on Omni-MATH human-annotated Reasoning episodes (gold set)

86.33Accuracy

GPT-5

Updated 5mo ago

Evaluation Results

Method	Links
GPT-5 2025.12		86.33	82.85
GPT-4.1 2025.12		86.1	82.74
GPT-5 2025.12		86.02	82.54
GPT-4.1 2025.12		85.75	82.39
Gemini-2.5-Flash 2025.12		82.9	78.67
Gemini-2.5-Flash 2025.12		82.45	78.21
Gemini-2.5-Pro 2025.12		80.89	75.96
Gemini-2.5-Pro 2025.12		80.53	75.6