Share your thoughts, 1 month free Claude Pro on usSee more

Multitask Language Understanding on MMLU-ProX non-EU languages (test)

70.9Accuracy

Qwen-3-30B-A3B

Updated 1mo ago

Evaluation Results

Method	Links
Qwen-3-30B-A3B 2026.02		70.9
Qwen-3-32B 2026.02		69
Qwen-3-14B 2026.02		64.6
Llama-3.3-70B 2026.02		63.4
Mistral-3.2-24B 2026.02		62.5
Gemma-3-27B 2026.02		58.8
OLMo-3.1-32B 2026.02		55.1
Gemma-3-12B 2026.02		51.8
EuroLLM-22B (new) 2026.02		43.8
OLMo-3-7B 2026.02		40.5
EuroLLM-9B (new) 2026.02		36.5
EuroLLM-22B (old) 2026.02		36.4
Apertus-70B 2026.02		35.2
Llama-3.1-8B 2026.02		31.1
Apertus-8B 2026.02		28.6
EuroLLM-9B (old) 2026.02		27.9