SOTA General Reasoning on M-HellaSwag 30 languages and PapersWithCode

49.29Macro Accuracy

Llama 3.1

Updated 2mo ago

Evaluation Results

Method	Links
Llama 3.1 2026.05		49.29
Cross-Lingual Consensus 2026.05		48.44