Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning on OBQA

97.67Accuracy

COSE

Updated 1mo ago

Evaluation Results

Method	Links
COSE 2026.05		97.67
Base 2026.05		97
MAE 2026.05		96.8
COSE 2026.05		96.65
AZR 2026.05		96.6
R-Zero 2026.05		96.4
MAE 2026.05		96
COSE 2026.05		95.96
R-Zero 2026.05		81.39
AZR 2026.05		80.32
COSE 2026.05		79.67
MAE 2026.05		79.39
Base 2026.05		79
AZR 2026.05		77.55
R-Zero 2026.05		76.8
MAE 2026.05		76.4
R-Zero 2026.05		75.2
AZR 2026.05		73.4
Base 2026.05		73
Base 2026.05		67.8
SmolLM-1.7B + Ours 2026.04		31.6
SmolLM-360M + Ours 2026.04		30.5
Self-Improving Pretraining 2026.01		30
LaMini-GPT-124M 2026.04		29.6
Self-Improving Pretraining 2026.01		29
SmolLM-135M + Ours 2026.04		28.6
Galactica-125M 2026.04		28.2
Self-Improving Pretraining 2026.01		27.4
Llama Base 2026.01		27.2
Llama Pretrain Baseline 2026.01		27
Llama Pretrain Baseline 2026.01		26.6
OPT-2.7B 2026.04		25
OPT-1.3B 2026.04		23.4
Pythia-1.4B 2026.04		22.4
Pythia-2.8B 2026.04		22
Cerebras-GPT-2.7B 2026.04		20.6
Pythia-1B 2026.04		19.6
Pythia-410M 2026.04		17.8
OPT-350M 2026.04		17.6
OPT-125M 2026.04		16.6
Cerebras-GPT-1.3B 2026.04		16.6
Pythia-160M 2026.04		16
Cerebras-GPT-256M 2026.04		15.8
Cerebras-GPT-590M 2026.04		15.8
Pythia-70M 2026.04		13.2
Cerebras-GPT-111M 2026.04		11.8