Share your thoughts, 1 month free Claude Pro on usSee more

Large Language Model Evaluation on Open PL LLM Leaderboard instruction-tuned

69.84Overall Average Score

Mistral-Large-Instruct-2411

Updated 4mo ago

Evaluation Results

Method	Links
Mistral-Large-Instruct-2411 2025.12		69.84
Meta-Llama-3.1-405B-Instruct-FP8 2025.12		69.44
Mistral-Large-Instruct-2407 2025.12		69.11
Qwen2.5-72B-Instruct 2025.12		67.92
QwQ-32B-Preview 2025.12		67.01
Llama-3.3-70B-Instruct 2025.12		66.4
Bielik-11B-v3.0-Instruct 2025.12		65.93
Qwen2-72B-Instruct 2025.12		65.87
Bielik-11B-v2.3-Instruct 2025.12		65.71
Bielik-11B-v2.2-Instruct 2025.12		65.57
Meta-Llama-3.1-70B-Instruct 2025.12		65.49
Bielik-11B-v2.1-Instruct 2025.12		65.45
Mixtral-8x22B-Instruct-v0.1 2025.12		65.23
Bielik-11B-v2.0-Instruct 2025.12		64.98
Meta-Llama-3-70B-Instruct 2025.12		64.45
Bielik-11B-v2.6-Instruct 2025.12		64.26
Qwen3-32B 2025.12		64.24
Llama-4-Scout-17B-16E-Instruct 2025.12		64.21
Bielik-11B-v2.5-Instruct 2025.12		63.95
Mistral-Small-24B-Instruct-2501 2025.12		62.97
phi-4 2025.12		62.57
Qwen3-14B 2025.12		62.24
gemma-3-12b-it 2025.12		62.2
Mistral-Small-Instruct-2409 2025.12		61.41
Qwen2.5-32B-Instruct 2025.12		61.21
Qwen2.5-14B-Instruct 2025.12		59.91
aya-23-35B 2025.12		56.37
Bielik-4.5B-v3.0-Instruct 2025.12		56.13
gemma-3-27b-it 2025.12		55.92
Qwen3-8B 2025.12		55.78
Qwen3-4B 2025.12		55.49
Mistral-Nemo-Instruct-2407 2025.12		55.27
EuroLLM-22B-Instruct-Preview 2025.12		55.17
Qwen2.5-7B-Instruct 2025.12		54.93
EuroLLM-9B-Instruct 2025.12		50.07
GaMS-9B-Instruct 2025.12		48.78
Mistral-7B-Instruct-v0.3 2025.12		47.74
Apertus-8B-Instruct-2509 2025.12		47.27
Mistral-7B-Instruct-v0.2 2025.12		45.95
Bielik-7B-Instruct-v0.1 2025.12		44.7
gemma-2-9b-it 2025.12		42.12
Qwen2.5-3B-Instruct 2025.12		41.23
Mistral-7B-Instruct-v0.1 2025.12		33.11
Qwen2.5-1.5B-Instruct 2025.12		31.89