Share your thoughts, 1 month free Claude Pro on usSee more

General Performance Evaluation on Performance Bench Aggregate

82.49Average Score

DeepSeek-R1-Distill-Qwen-32B (Reasoning)

Updated 4mo ago

Evaluation Results

Method	Links
DeepSeek-R1-Distill-Qwen-32B (Reasoning) 2026.01		82.49
ReasonAny 2026.01		78.54
TIES 2026.01		69.17
DARE 2026.01		68.45
Qwen2.5-32B-Instruct (Safety) 2026.01		68.25
Task Arithmetic 2026.01		67.82
FuseLLM 2026.01		66.65
Linear 2026.01		65.92
LED 2026.01		65.43