Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning and Knowledge Assessment on Xstorycloze bo

72.96Accuracy

Ours-MoE-SFT

Updated 2mo ago

Evaluation Results

Method	Links
Ours-MoE-SFT 2025.07		72.96
Ours-SFT 2025.07		61.86
Ours-MoE-Base-8k 2025.07		60.86
Ours-Base 2025.07		60.8
Ours-MoE-Base 2025.07		60.74
Ours-Base-32k 2025.07		60.6
LLaMA3.1-8B-Instruct 2025.07		51.69
Qwen2.5-7B-Instruct 2025.07		50.43
Qwen3-8B 2025.07		50.37
Qwen2.5-7B-base 2025.07		49.97
DeepSeek-R1-Distill-Llama-8B 2025.07		48.5