Share your thoughts, 1 month free Claude Pro on usSee more

Long-context reasoning on OfficeQA

57.14Accuracy

GEMINI 3.1 FLASH-LITE

Updated 11d ago

Evaluation Results

Method	Links
GEMINI 3.1 FLASH-LITE 2026.04		57.14
QWEN3.5-35B-A3B-FP8 2026.04		55.74
GEMINI-2.5-PRO 2026.04		53.37
GPT-OSS-20B 2026.04		46.58
GPT-OSS-20B 2026.04		37.84
GPT-OSS-120B 2026.04		33.88
GPT-OSS-20B 2026.04		26.53
GPT-OSS-20B 2026.04		21.63
QWEN3-4B-INSTRUCT-2507 2026.04		14.88
QWEN3-4B-INSTRUCT-2507 2026.04		13.58