Share your thoughts, 1 month free Claude Pro on usSee more

Zero-shot Reasoning on Advanced Reasoning Suite (MMLU-Pro, GPQA, AIME)

74.8MMLU-Pro Accuracy

Base

Updated 1mo ago

Evaluation Results

Method	Links
Base 2025.10		74.8	58.6	73.3	73.3	70
QTIP 2025.10		74	57.7	70	68.9	67.7
NWC 2025.10		73.8	58.8	71.1	71.2	69
Base 2025.10		70.7	54	73.3	60	64.5
QTIP 2025.10		69.8	55.2	71.1	57.8	63.5
NWC 2025.10		69.4	53.2	73.3	61.1	63.7