Long-context Temporal Reasoning on EventQA

0.856Accuracy (64K)

Qwen3-4B RL finetuned on HanabiRewards

Updated 4d ago

Evaluation Results

Method	Links
Qwen3-4B RL finetuned on HanabiRewards 2026.01		0.856	0.668	0.436
Qwen3-4B-Instruct-2507 2026.01		0.84	0.626	0.372