Scientific Reasoning on SciBench

44.3Accuracy

GPT-4o

Updated 2mo ago

Evaluation Results

Method
GPT-4o 2026.04	44.3	-
AeroTherm-GPT 2026.04	42.6	-
GAC 2026.05	41.2	-
GAC 2026.05	40.4	-
HPT 2026.05	38.7	-
LUFFY 2026.05	38.4	-
KL-ctrl 2026.05	38.2	-
MCPO-DAPO 2026.05	37.92	-
CHORD 2026.05	37.8	-
GradNorm-ctrl 2026.05	37.6	-
SRFT 2026.05	37.4	-
Nash-MTL 2026.05	37.3	-
CAGrad 2026.05	37	-
MCPO-GRPO 2026.05	36.83	-
MGDA 2026.05	36.5	-
DAPO 2026.05	36.05	-
MCPO-DAPO 2026.05	35.81	-
Llama-3-70B 2026.04	35.8	-
MT-GRPO 2026.05	35.71	-
MGS 2026.05	35.24	-
SFT-best + RL 2026.05	35.1	-
MCPO-GRPO 2026.05	34.92	-
GRPO 2026.05	34.91	-
DAPO 2026.05	34.86	-
MT-GRPO 2026.05	34.52	-
CLIPO 2026.05	34.32	-
MGS 2026.05	34.18	-
CLIPO 2026.05	33.2	-
GRPO 2026.05	33.04	-
SFT-best 2026.05	32.4	-
Qwen2.5-7B-Inst. 2026.05	28.7	-
Base Model 2026.05	28.46	-
Base Model 2026.05	27.01	-
GPT-4 2024.01	-	28.52
GPT-3.5-turbo 2024.01	-	12.17
LLaMA-2-7B 2024.01	-	0.4
ChatGLM2-6B 2024.01	-	1.54
ChatGLM2-6B-Base 2024.01	-	1.2
ChatGLM3-6B 2024.01	-	2.4
ChatGLM3-6B-Base 2024.01	-	2.4
SciGLM 2024.01	-	3.77
Llama3-8B-Instruct 2024.01	-	1.03
Llama3-8B-Instruct 2024.01	-	3.6
Llama3-8B-Instruct + SciInstruct 2024.01	-	3.6
Mistral-7B: MetaMATH 2024.01	-	4.63
Mistral-7B: MetaMATH 2024.01	-	6.17
Mistral-7B: MetaMATH + SciInstruct 2024.01	-	6.23
LLaMA-2-13B 2024.01	-	1.37
ChatGLM3-32B-Base 2024.01	-	4.29
SciGLM 2024.01	-	5.15