Share your thoughts, 1 month free Claude Pro on usSee more

Robustness Evaluation on BiasBench

82.5Accuracy

Qwen2.5-32B-Instruct

Updated 4mo ago

Evaluation Results

Method	Links
Qwen2.5-32B-Instruct 2026.01		82.5
DeepSeek-V3 2026.01		81.25
Qwen3-30B-A3B-Instruct-2507 2026.01		81.25
Qwen3-Next-80B-A3B-Instruct 2026.01		80
Qwen3-30B-A3B-Thinking-2507 2026.01		77.5
Qwen3-Next-80B-A3B-Thinking 2026.01		75
QwQ-32B 2026.01		67.5
DeepSeek-R1 2026.01		65