Share your thoughts, 1 month free Claude Pro on usSee more

Deep Research on SQA v2

88.3Score

DR Tulu-8B (RL)

Updated 2mo ago

Evaluation Results

Method	Links
DR Tulu-8B (RL) 2025.11		88.3
Ai2 ScholarQA - Claude Sonnet 2025.11		87.7
OpenAI Deep Research 2025.11		79.6
GPT-5 + Search 2025.11		74.8
DR Tulu-8B (SFT) 2025.11		72.3
Gemini 3 Pro + Search 2025.11		69.8
Perplexity Deep Research 2025.11		67.3
GPT-5 + Our Search 2025.11		61.1
Qwen3-8B + Our Search 2025.11		57.2
WebThinker-32B-DPO (report) 2025.11		46.7
Tongyi DeepResearch-30B-A3B 2025.11		46.5
WebThinker QwQ-32B (report) 2025.11		45.2
WebExplorer-8B 2025.11		42.5
QwQ-32B 2025.11		41.9
Qwen3-8B 2025.11		40.4
WebThinker-32B-DPO 2025.11		32.9
ASearcher-Web-7B 2025.11		26.9
Search-R1-7B 2025.11		22.2