Share your thoughts, 1 month free Claude Pro on usSee more

Multi-step Reasoning on StrategyQA (test)

64.63Accuracy

Qwen3-4B + SFT + WeMask(TF)

Updated 2mo ago

Evaluation Results

Method	Links
Qwen3-4B + SFT + WeMask(TF) 2026.05		64.63
Qwen3-4B + WeMask(SFT) 2026.05		64.54
Qwen3-4B + SFT + WeMask(TF) 2026.05		64.24
Qwen3-4B + SFT + WeMask(TF) 2026.05		64.22
Qwen3-4B + SFT + WeMask(TF) 2026.05		64.19
Qwen3-4B + SFT 2026.05		64.15
Qwen3-4B + WeMask(SFT) 2026.05		64.06
Qwen3-4B + WeMask(SFT) 2026.05		63.76
Qwen3-4B + WeMask(SFT) 2026.05		63.62
Qwen3-4B + WeMask(SFT) 2026.05		62.05
Qwen3-4B + SFT + WeMask(TF) 2026.05		61.75