Share your thoughts, 1 month free Claude Pro on usSee more

Knowledge-Intensive Reasoning on HQA

87Average Score

AutoTraj

Updated 4mo ago

Evaluation Results

Method	Links
AutoTraj 2026.01		87
Qwen2.5-7B-Instruct 2026.01		85
AutoTIR 2026.01		85
R1-Searcher 2026.01		83
ReSearch 2026.01		82
Tool-Star-SFT 2026.01		77
Vanilla SFT-RL TIR 2026.01		75
Tool-Star 2026.01		74
ToRL 2026.01		72
AutoTIR 2026.01		30.5
ReSearch 2026.01		28.5
AutoTraj 2026.01		28.5
Vanilla SFT-RL TIR 2026.01		28
Tool-Star 2026.01		27
Tool-Star-SFT 2026.01		26.5
Qwen2.5-7B-Instruct 2026.01		24.5
R1-Searcher 2026.01		19.5
ToRL 2026.01		6.5