Share your thoughts, 1 month free Claude Pro on usSee more

Academic Reasoning on MMLU-Pro

50.7Pass@1

TRAPO

Updated 5mo ago

Evaluation Results

Method	Links
TRAPO 2025.12		50.7
Fully Supervised 2025.12		49.3
Fully Supervised 2025.12		48.2
TRAPO 2025.12		46.8
Sentence-level Entropy 2025.12		44.5
Token-level Entropy 2025.12		44
Fully Supervised 2025.12		43.6
Sentence-level Entropy 2025.12		42.7
TTRL 2025.12		42.7
Self-certainty 2025.12		41.6
Self-certainty 2025.12		41.4
TTRL 2025.12		41.3
Token-level Entropy 2025.12		40.9
Qwen-Instruct 2025.12		34.1
Qwen-Base 2025.12		16.9