Share your thoughts, 1 month free Claude Pro on usSee more

Commonsense Reasoning on Hellaswag non-EU languages (test)

80.4Accuracy

Mistral-3.2-24B

Updated 4mo ago

Evaluation Results

Method	Links
Mistral-3.2-24B 2026.02		80.4
Qwen-3-32B 2026.02		77.4
Qwen-3-30B-A3B 2026.02		76.6
Qwen-3-14B 2026.02		73.8
Gemma-3-27B 2026.02		73.6
Gemma-3-12B 2026.02		71.1
Llama-3.3-70B 2026.02		70.2
Apertus-70B 2026.02		64.5
EuroLLM-22B (new) 2026.02		61.7
EuroLLM-22B (old) 2026.02		61.4
EuroLLM-9B (old) 2026.02		50.1
Apertus-8B 2026.02		48.7
EuroLLM-9B (new) 2026.02		47.3
OLMo-3.1-32B 2026.02		43.3
Llama-3.1-8B 2026.02		36.6
OLMo-3-7B 2026.02		30.3