Share your thoughts, 1 month free Claude Pro on usSee more

General Performance on Performance Bench Reasoning & Knowledge (Average)

78.37Average Score

DeepSeek-R1-Distill-Qwen-14B (Reasoning)

Updated 4mo ago

Evaluation Results

Method	Links
DeepSeek-R1-Distill-Qwen-14B (Reasoning) 2026.01		78.37
ReasonAny 2026.01		75.4
Task Arithmetic 2026.01		68.11
Qwen2.5-14B-Instruct (Safety) 2026.01		65.11
LED 2026.01		63.88
TIES 2026.01		62.6
Linear 2026.01		61.07
DARE 2026.01		59.29
FuseLLM 2026.01		51.76