Share your thoughts, 1 month free Claude Pro on usSee more

Multi-domain reasoning on BBH

87.39Accuracy

ALRR

Updated 1mo ago

Evaluation Results

Method	Links
ALRR 2026.06		87.39
ALRR+ERSS 2026.06		87.29
LRS 2026.06		87.2
ERSS 2026.06		87.18
ALRR+LRS 2026.06		87.17
phi-balancing 2026.05		85.74
LRS 2026.06		85.61
ALRR 2026.06		85.56
ERSS+LRS 2026.06		84.81
Baseline 2026.06		84.78
Baseline 2026.06		84.73
ERSS 2026.06		84.67
ST-MoE 2026.05		82
ERSS 2026.06		77.38
ALRR 2026.06		77.19
LRS 2026.06		76.79
Baseline 2026.06		76.74
LRS 2026.06		74.14
phi-balancing 2026.05		73.92
ERSS 2026.06		73.91
ALRR 2026.06		72.53
ALRR+ERSS 2026.06		72.03
ALRR+LRS 2026.06		72.03
ALRR 2026.06		71.69
LRS 2026.06		71.27
Baseline 2026.06		71.23
ERSS 2026.06		70.9
Baseline 2026.06		70.48
ALRR 2026.06		69.92
ST-MoE 2026.05		69.86
ERSS 2026.06		69.67
LRS 2026.06		69.52
ERSS+LRS 2026.06		69.44
Baseline 2026.06		69.03
phi-balancing 2026.05		61.98
Frozen checkpoint 2026.05		59.1
ST-MoE 2026.05		57.34
Frozen checkpoint 2026.05		35.42
Frozen checkpoint 2026.05		33.07