Share your thoughts, 1 month free Claude Pro on usSee more

Knowledge-Intensive Reasoning on WebWalker

30.5F1 Score

Llama3.1-8B + ARPO

Updated 4mo ago

Evaluation Results

Method	Links
Llama3.1-8B + ARPO 2025.12		30.5
Llama3.1-8B + Reinforce ++ 2025.12		27.5
Llama3.1-8B + GRPO 2025.12		26.5
Qwen2.5-7B + Reinforce ++ 2025.12		26
Qwen2.5-7B + ARPO 2025.12		26
Llama3.1-8B + DAPO 2025.12		25.5
Qwen2.5-3B + ARPO 2025.12		24.5
Qwen2.5-7B + DAPO 2025.12		24
Qwen2.5-7B + GRPO 2025.12		22
Qwen2.5-3B + GRPO 2025.12		21
Qwen2.5-3B + Reinforce ++ 2025.12		19.5
Qwen2.5-3B + DAPO 2025.12		19.5
Qwen2.5-7B + TIR Prompting 2025.12		15.5
Llama3.1-8B + TIR Prompting 2025.12		15
Qwen2.5-3B + TIR Prompting 2025.12		14
Llama3.1-8B 2025.12		3
Qwen2.5-7B 2025.12		2
Qwen2.5-3B 2025.12		0.5