Share your thoughts, 1 month free Claude Pro on usSee more

Multi-task Evaluation on Average (GSM8K-CoT, MATH, MBPP, HumanEval)

51.6Accuracy

TAD-Q

Updated 2mo ago

Evaluation Results

Method	Links
TAD-Q 2026.05		51.6	5.08	225.2
TAD-S 2026.05		49.9	5.76	257.1
LLaDA 2026.05		46.2	1	46.2
d3LLM 2026.05		45.9	6.25	206.1
Fast-dLLM 2026.05		45.5	2.36	84.7
dParallel 2026.05		45.5	3.9	128.6
D2F 2026.05		44.1	2.47	87.9