Share your thoughts, 1 month free Claude Pro on usSee more

Long-Context Reasoning on LOONG

65.43Accuracy

Gemini-3.0-pro

Updated 4mo ago

Evaluation Results

Method	Links
Gemini-3.0-pro 2026.03		65.43
Deepseek-v3.1 2026.03		50.55
Deepseek-R1-Distill-Qwen-32B + TableLong 2026.03		45.3
Qwen-Long-L1 2026.03		44.68
Qwen3-32B + TableLong 2026.03		43.1
Qwen3-32B 2026.03		39.96
Qwen2.5-32B-Instruct + TableLong 2026.03		38.18
Deepseek-R1-Distill-Qwen-32B 2026.03		38.17
Deepseek-R1-Distill-Qwen-14B + TableLong 2026.03		35.44
Qwen2.5-32B-Instruct 2026.03		33.22
Deepseek-R1-Distill-Qwen-14B 2026.03		25.07