Share your thoughts, 1 month free Claude Pro on usSee more

Scenario-based Reasoning (Overall) on TSRBench

86.55Overall Accuracy

VeriTime

Updated 5mo ago

Evaluation Results

Method	Links
VeriTime 2026.02		86.55
VeriTime 2026.02		82.86
ChatTS 2026.02		82.21
ChatTS 2026.02		78.31
Qwen3-4B-Instruct 2026.02		75.48
GPT-4o-mini 2026.02		70.43
Qwen2.5-7B-instruct 2026.02		66.81
Meta-Llama3-8B-Instruct 2026.02		59.22
Mistral-7B-v0.3 2026.02		59.22
Time-MQA 2026.02		53.66
Time-MQA 2026.02		53.05
DeepSeek-R1-Distill-Qwen-7B 2026.02		52.93
Time-R1 2026.02		51.73
Time-MQA 2026.02		41
Qwen2.5-3B-Instruct 2026.02		40.99