Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning Generalization on Out-of-Distribution Avg

59.7Avg Score (OOD)

TRAPO

Updated 5mo ago

Evaluation Results

Method	Links
TRAPO 2025.12		59.7
Fully Supervised 2025.12		57.3
Fully Supervised 2025.12		56.7
TRAPO 2025.12		56.1
Sentence-level Entropy 2025.12		52.6
TTRL 2025.12		52.4
Fully Supervised 2025.12		52.1
Sentence-level Entropy 2025.12		51.5
TTRL 2025.12		50.2
Token-level Entropy 2025.12		49.9
Token-level Entropy 2025.12		49.7
Self-certainty 2025.12		48.4
Self-certainty 2025.12		45.6
Qwen-Instruct 2025.12		43
Qwen-Base 2025.12		15.4