2WikiMQA

Benchmarks

Task Name	Dataset Name	SOTA Result
Multi-hop Question Answering	2WikiMQA	F1 Score76.4	175
Question Answering	2WikiMQA	F174.9	66
Long-context Question Answering	2WikiMQA	SubEM79.5	36
Question Answering	2WikiMQA (test)	Unreliability Rate44.3	28
Multi-hop Reasoning	2WikiMQA IRCoT 500 samples (test)	ACC52.8	27
Multimodal Question Answering	2WikiMQA	F1-Recall55.47	22
Long-context Question Answering	2WikiMQA (Passage Split)	Score52.53	18
Long-context Question Answering	2WikiMQA Fixed Chunk 2048	QA Score52.53	18
Long-context retrieval	2WikiMQA LongEmbed	nDCG@1096.5	9
Retrieval	2WikiMQA (test)	Recall@K69.7	8
Multi-hop Question Answering	2WikiMQA (test)	Exact Match48.6	7
Document Reranking	2WikiMQA	NDCG@580.2	5
Open-Domain Question Answering	2WikiMQA	Joint Answer-Evidence Score7	4
Question Answering	2WikiMQA (sampled)	Accuracy0.63	4

Showing 14 of 14 rows