Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning Episode Classification on Omni-MATH Non-Reasoning episodes (human-annotated gold set)

89.34Accuracy

GPT-4.1

Updated 5mo ago

Evaluation Results

Method	Links
GPT-4.1 2025.12		89.34	85.36
GPT-5 2025.12		89.34	85.35
Gemini-2.5-Flash 2025.12		87.16	82.35
Gemini-2.5-Pro 2025.12		84.43	78.62