Share your thoughts, 1 month free Claude Pro on usSee more

2WikiMultiHopQA

Benchmarks

Task Name	Dataset Name	SOTA Result
Multi-hop Question Answering	2WikiMultiHopQA	EM82.1	559
Multi-hop Question Answering	2WikiMultiHopQA (test)	EM73.9	247
Question Answering	2WikiMultihopQA (test)	F178.9	113
Question Answering	2WikiMultihopQA	EM47.7	107
Multi-hop Question Answering	2WikiMultiHopQA Out-Of-Distribution (OOD)	Accuracy74.2	72
Document Retrieval	2WikiMultiHopQA (test)	Per-query Final Recall88	63
Open-domain Question Answering	2WikiMultiHopQA in-domain	F1 Score62.6	57
Long-context Question Answering	2WikiMultiHopQA (Out-Of-Distribution)	Accuracy63.9	54
Question Answering	2WikiMultiHopQA	Exact Match43	50
Knowledge Retrieval	2WikiMultihopQA	F1 Score56.46	45
Multi-hop Question Answering	2WikiMultiHopQA	String Accuracy70.3	44
Multi-hop Question Answering	2WikiMultiHopQA (val)	Exact Match (EM)69.3	44
Knowledge-Intensive Reasoning	2WikiMultiHopQA	Accuracy81.5	38
Question Answering	2WikiMultihopQA	EM60	36
Multihop Question Answering	2WikiMultihopQA	EM60	36
Multi-hop Question Answering	2WikiMultiHopQA (dev)	Exact Match Accuracy88.658	36
Multi-hop QA Retrieval	2WikiMultihopQA (test)	R@597.2	33
Question Answering	2WikiMultihopQA	Guard Rate100	32
Question Answering	2WikiMultihopQA LongBench	F1 Score59.73	32
Multi-hop Question Answering	2WikiMultiHopQA	Token F1 Score65.9	30
Multi-hop Question Answering	2WikiMultihopQA	Exact Match (EM)0.6	28
Retrieval-Augmented Generation	2WikiMultiHopQA	F1 Score65.04	28
Multi-hop Question Answering	2WikiMultiHopQA	EM48.3	28
Reasoning	2WikiMultiHopQA (OOD)	Degeneration Count0	27
Question Answering	2WikiMultiHopQA (OOD)	Exact Match (EM)2.21	27

Showing 25 of 113 rows