Share your thoughts, 1 month free Claude Pro on usSee more

Diagnostic Reasoning on ER-Reason

72.14Final Accuracy

SEA (Qwen-8b)

Updated 3mo ago

Evaluation Results

Method	Links
SEA (Qwen-8b) 2026.04		72.14	20	35
GPT-5.2 (Zeroshot + Dual Memory) 2026.04		69.44	15	17
SEA (Qwen-4b) 2026.04		68.5	23	32
Qwen-8b (RL-DiagnosticRewardOnly) 2026.04		59.06	1	3
Qwen-8b (SFT) 2026.04		56.82	-2	1
Qwen-8b (SFT + Dual Memory) 2026.04		54.21	19	21
GPT-5.2 2026.04		53.16	8	13
Qwen-8b 2026.04		44.61	1	6
Qwen-4b 2026.04		41.88	-5	8