Share your thoughts, 1 month free Claude Pro on usSee more

Knowledge-Intensive Reasoning on MuSiQue (F1 score)

34.8F1 Score

Llama3.1-8B + ARPO

Updated 1mo ago

Evaluation Results

Method	Links
Llama3.1-8B + ARPO 2025.12		34.8	-	-
EAPO 2026.06		33.1	22	2.46
EAPO 2026.06		32.8	16	2.58
GRPO 2026.06		32.1	17.5	3.1
Qwen2.5-7B + ARPO 2025.12		31.1	-	-
Llama3.1-8B + GRPO 2025.12		31	-	-
Soft-NBCE 2026.05		31	-	-
Reinforce++ 2026.06		30.7	15.4	2.26
Qwen2.5-7B + GRPO 2025.12		30.6	-	-
GRPO 2026.06		30.6	16.7	3.07
Reinforce++ 2026.06		30.2	15.9	2.37
Qwen2.5-3B + DAPO 2025.12		30	-	-
Llama3.1-8B + Reinforce ++ 2025.12		29.9	-	-
Llama3.1-8B + DAPO 2025.12		29.2	-	-
Qwen2.5-3B + ARPO 2025.12		28.7	-	-
Qwen2.5-7B + DAPO 2025.12		28.6	-	-
Soft-NBCE 2026.05		28.3	-	-
Qwen2.5-3B + Reinforce ++ 2025.12		27.9	-	-
Vanilla NBCE 2026.05		27.5	-	-
Qwen2.5-7B + Reinforce ++ 2025.12		25.2	-	-
AEPO 2026.06		25.1	13.5	4.71
Qwen2.5-3B + GRPO 2025.12		24.7	-	-
EAPO 2026.06		23.4	17.5	2.26
ARPO 2026.06		22.5	12	2.33
PCW 2026.05		21.2	-	-
Truncated (8K) 2026.05		20.9	-	-
ARPO 2026.06		19.4	11.5	2.62
TIR 2026.06		17.8	9.7	2.67
GRPO 2026.06		17.7	9.8	2.48
ToolStar 2026.06		16.8	11	4.07
Reinforce++ 2026.06		16	7.8	2.51
ToolStar 2026.06		15.7	8.5	2.52
Llama3.1-8B + TIR Prompting 2025.12		15.5	-	-
Llama3.1-8B 2025.12		10.4	-	-
Base 2026.06		9.8	7.4	-
Qwen2.5-7B + TIR Prompting 2025.12		9.5	-	-
TIR 2026.06		7.7	2.5	2.56
Qwen2.5-7B 2025.12		6.6	-	-
Base 2026.06		6.5	2.5	-
Qwen2.5-3B + TIR Prompting 2025.12		6.1	-	-
TIR 2026.06		6.1	3.2	1.59
Qwen2.5-3B 2025.12		3.6	-	-
Base 2026.06		3.6	0.5	-