Share your thoughts, 1 month free Claude Pro on usSee more

Long-context reasoning on LongSeal

64.96Accuracy

GEMINI 3.1 FLASH-LITE

Updated 10d ago

Evaluation Results

Method	Links
GEMINI 3.1 FLASH-LITE 2026.04		64.96
GPT-OSS-20B 2026.04		64
GEMINI-2.5-PRO 2026.04		59.84
QWEN3.5-35B-A3B-FP8 2026.04		58.5
GPT-OSS-20B 2026.04		52.17
GPT-OSS-120B 2026.04		42.18
QWEN3-4B-INSTRUCT-2507 2026.04		40.94
GPT-OSS-20B 2026.04		38.19
GPT-OSS-20B 2026.04		34.65
QWEN3-4B-INSTRUCT-2507 2026.04		33.07