Share your thoughts, 1 month free Claude Pro on usSee more

Compositional Multi-hop QA on Bamboogle (Success Rate)

77.6Success Rate

Llama 3.1 405B

Updated 5mo ago

Evaluation Results

Method	Links
Llama 3.1 405B 2025.12		77.6
Llama 3.1 70B 2025.12		76.8
Qwen 3 14B 2025.12		76
GenEnv 2025.12		76
Qwen 3 32B 2025.12		71.2
Qwen 2.5 72B 2025.12		69.6
ReSearch 2025.12		68
Qwen 2.5 7B 2025.12		68
SearchR1 2025.12		67.2
ToRL 2025.12		34.4
GPT-OSS 20B 2025.12		33.6
GPT-OSS 120B 2025.12		29.6