Share your thoughts, 1 month free Claude Pro on usSee more

Olympiad-level Science Problem Solving on OlympBench

69.6Accuracy

Gemini-2.5-Pro

Updated 1mo ago

Evaluation Results

Method	Links
Gemini-2.5-Pro 2025.08		69.6	2.1
Gemini-2.5-Pro 2025.08		67.5	-
GPT-5 2025.08		64.9	4.8
GPT-5 2025.08		60	-
Claude-Sonnet-4 2025.08		59.8	4.4
o3 2025.08		58	4.5
Claude-Sonnet-4 2025.08		55.4	-
o3 2025.08		53.5	-
o3-mini 2025.08		51.1	11.6
o4-mini 2025.08		49.6	9.2
o4-mini 2025.08		40.4	-
o3-mini 2025.08		39.5	-