Share your thoughts, 1 month free Claude Pro on usSee more

Scientific Evaluation on SciEval

87.5Accuracy

o4-mini

Updated 1mo ago

Evaluation Results

Method	Links
o4-mini 2025.08		87.5	0.4
GPT-5 2025.08		87.4	-
o4-mini 2025.08		87.1	-
Gemini-2.5-Pro 2025.08		86.4	-
GPT-5 2025.08		86.1	-1.3
Claude-Sonnet-4 2025.08		85.8	-
Claude-Sonnet-4 2025.08		85.8	0
Gemini-2.5-Pro 2025.08		85.1	-1.3
o3 2025.08		84.8	-
o3-mini 2025.08		83.8	-
o3-mini 2025.08		83.4	-0.4
o3 2025.08		82.7	-2.1