Share your thoughts, 1 month free Claude Pro on usSee more

Overall Evaluation on Principle-based evaluation dataset

8.41Average

Claude 4.5-Haiku

Updated 4mo ago

Evaluation Results

Method	Links
Claude 4.5-Haiku 2025.12		8.41
Claude 4.5-Sonnet 2025.12		8.41
GPT-5.1 2025.12		8.36
Claude 3.5-Haiku 2025.12		8.33
GPT-4.1 2025.12		8.3
Qwen3-8B 2025.12		8.23
Qwen3-4B 2025.12		8.21
GPT-5 2025.12		8.21
Qwen3-1.7B 2025.12		8.03
Qwen2.5-7B 2025.12		7.97
Llama-3.1-8B 2025.12		7.86
Llama-3.2-3B 2025.12		7.81