Share your thoughts, 1 month free Claude Pro on usSee more

General Large Language Model Evaluation on Core Capabilities Aggregate

72.32Average Score

Qwen3-4B

Updated 4mo ago

Evaluation Results

Method	Links
Qwen3-4B 2025.12		72.32
Qwen2.5-3B 2025.12		63.15
Qwen3-1.7B 2025.12		61.47
LLama-3-8B 2026.02		56.5
DCLM-Bas. + CC-Tables 2026.02		56.1
DCLM-7B-8k 2026.02		56
Qwen2.5-1.5B 2025.12		55.95
DCLM-Bas. + CC-Tables 2026.02		55.7
DCLM-Bas. + CC-Tables 2026.02		54.7
DCLM-Bas. + CC-Tables 2026.02		53.7
YuLan-Mini-2.4B 2025.12		53.02
SmolLM3-3B 2025.12		52.64
Qwen2-1.5B 2025.12		50.63
Llama-3.2-3B 2025.12		49.17
Qwen3-0.6B 2025.12		47.18
PCMind-2.1-Kaiyuan-2B 2025.12		46.05
Llama-3.2-1B 2025.12		31.56
SmolLM2-1.7B 2025.12		30.64
Gemma2-2B 2025.12		29.42
OLMo-2-0425-1B 2025.12		28.4