Share your thoughts, 1 month free Claude Pro on usSee more

Knowledge-Intensive Reasoning on 2wikiMultiHopQA (F1 Score)

76.1F1 Score

Qwen2.5-7B + GRPO

Updated 4mo ago

Evaluation Results

Method	Links
Qwen2.5-7B + GRPO 2025.12		76.1
Qwen2.5-7B + ARPO 2025.12		76.1
Llama3.1-8B + ARPO 2025.12		75.5
Llama3.1-8B + GRPO 2025.12		71.8
Llama3.1-8B + Reinforce ++ 2025.12		71.6
Llama3.1-8B + DAPO 2025.12		70.3
Qwen2.5-7B + Reinforce ++ 2025.12		68.9
Qwen2.5-7B + DAPO 2025.12		68.4
Qwen2.5-3B + ARPO 2025.12		67.4
Qwen2.5-3B + GRPO 2025.12		64.5
Qwen2.5-3B + DAPO 2025.12		62.5
Qwen2.5-3B + Reinforce ++ 2025.12		62.3
Llama3.1-8B + TIR Prompting 2025.12		47.5
Llama3.1-8B 2025.12		24.6
Qwen2.5-7B + TIR Prompting 2025.12		18.3
Qwen2.5-3B + TIR Prompting 2025.12		14.1
Qwen2.5-7B 2025.12		12.6
Qwen2.5-3B 2025.12		9.4