Share your thoughts, 1 month free Claude Pro on usSee more

Issue Recognition on FaultyScience (test)

95Performance

Qwen2.5-72B

Updated 4mo ago

Evaluation Results

Method	Links
Qwen2.5-72B 2026.03		95
Llama3.3 70B 2026.03		90.8
GPT4 2026.03		88.1
Mixtral-8x7B 2026.03		75.2
GPT4 2026.03		48.6
Qwen2.5-72B 2026.03		40.1
GPT4 2026.03		34.9
Mixtral-8x7B 2026.03		27.8
Llama3.3 70B 2026.03		24.5
Llama3.3 70B 2026.03		14
Qwen2.5-72B 2026.03		10.8
Mixtral-8x7B 2026.03		10.2