Share your thoughts, 1 month free Claude Pro on usSee more

Multi-step Reasoning on StrategyQA

66.99Accuracy

Qwen3-8B + SFT + WeMask(TF)

Updated 17d ago

Evaluation Results

Method	Links
Qwen3-8B + SFT + WeMask(TF) 2026.05		66.99
Qwen3-8B + SFT 2026.05		66.77
Qwen3-8B + WeMask(SFT) 2026.05		66.69
Qwen3-4B + WeMask(SFT) 2026.05		64.54
Qwen3-4B + SFT + WeMask(TF) 2026.05		64.24
Qwen3-4B + SFT 2026.05		64.15
Qwen3-4B + Gated Attention 2026.05		62.62
Qwen3-8B + Gated Attention 2026.05		62.53
Cumulative Voting 2026.07		61.2
Majority Consensus 2026.07		59.9
Unanimity Con. 2026.07		58.8
Approval Voting 2026.07		58.7
Simple Voting 2026.07		58.5
Supermajority Con. 2026.07		56.4
Ranked Voting 2026.07		56.2
Baseline with CoT 2026.07		55.5
Judge 2026.07		53.7
Qwen3-8B 2026.05		53.32
Baseline 2026.07		51.7
Qwen3-4B 2026.05		46.77