Share your thoughts, 1 month free Claude Pro on usSee more

Knowledge-Intensive Reasoning on Bamboogle (F1 score)

73.8F1

Llama3.1-8B + ARPO

Updated 1mo ago

Evaluation Results

Method	Links
Llama3.1-8B + ARPO 2025.12		73.8	-	-	-
Qwen2.5-7B + ARPO 2025.12		71.5	-	-	-
Llama3.1-8B + Reinforce ++ 2025.12		69.1	-	-	-
Qwen2.5-7B + GRPO 2025.12		68.4	-	-	-
Llama3.1-8B + GRPO 2025.12		68.2	-	-	-
Llama3.1-8B + DAPO 2025.12		67.3	-	-	-
Qwen2.5-3B + ARPO 2025.12		66.8	-	-	-
Qwen2.5-3B + Reinforce ++ 2025.12		65.7	-	-	-
Qwen2.5-7B + DAPO 2025.12		65.5	-	-	-
Qwen2.5-3B + GRPO 2025.12		65.2	-	-	-
Qwen2.5-7B + Reinforce ++ 2025.12		64.9	-	-	-
Qwen2.5-3B + DAPO 2025.12		64.8	-	-	-
EAPO 2026.06		61.7	47.9	2.19	-
Llama3.1-8B + TIR Prompting 2025.12		58.4	-	-	-
Reinforce++ 2026.06		58.4	23.7	2.2	-
GRPO 2026.06		57.4	42.8	2.94	-
Llama3.1-8B 2025.12		40	-	-	-
TIR 2026.06		30.6	15.8	2.42	-
Base 2026.06		26.7	12.5	-	-
Qwen2.5-7B 2025.12		24	-	-	-
Qwen2.5-7B + TIR Prompting 2025.12		23.6	-	-	-
Qwen2.5-3B + TIR Prompting 2025.12		16.4	-	-	-
Qwen2.5-3B 2025.12		11.7	-	-	-
Zero-shot 2026.06		-	-	-	40
TIR Prompting 2026.06		-	-	-	58.4
GRPO 2026.06		-	-	-	68.2
Reinforce++ 2026.06		-	-	-	69.1
DAPO 2026.06		-	-	-	67.3
GPPO 2026.06		-	-	-	71.9
CISPO 2026.06		-	-	-	71.8
GIGPO 2026.06		-	-	-	72.1
ARPO 2026.06		-	-	-	72.8
APPO 2026.06		-	-	-	76.8
Zero-shot 2026.06		-	-	-	24
TIR Prompting 2026.06		-	-	-	23.6
GRPO 2026.06		-	-	-	68.4
Reinforce++ 2026.06		-	-	-	64.9
DAPO 2026.06		-	-	-	65.5
GPPO 2026.06		-	-	-	72.4
CISPO 2026.06		-	-	-	70.2
GIGPO 2026.06		-	-	-	70.1
ARPO 2026.06		-	-	-	71.5
APPO 2026.06		-	-	-	77.6