Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

MuSiQue

Benchmarks

Task NameDataset NameSOTA ResultTrend
Multi-hop Question AnsweringMusique
EM46
209
Multi-hop Question AnsweringMuSiQue (test)
F155.68
128
Multi-hop QAMuSiQue
EM77.2
95
Question AnsweringMuSiQue
EM39.6
84
Question AnsweringMuSiQue
F1 Score50
80
Question AnsweringMuSiQue
F1 Score52.27
79
Question AnsweringMuSiQue (test)
EM48
76
Question AnsweringMusique
EM22.92
71
Uncertainty QuantificationMusique 500 randomly sampled queries (test)
AUROC0.8322
70
Question AnsweringMusique
EM26
62
Multi-Hop Question AnsweringMuSiQue
Exact Match (EM)25.3
58
Open-domain Question AnsweringMusiQue out-of-domain
F135.8
57
Question AnsweringMuSiQue
F1 Score81.3
54
Multi-Hop Question AnsweringMuSiQue
Exact Match (EM)22.6
51
Multi-hop Question AnsweringMuSiQue
EM40
50
Multi-hop Question AnsweringMusiQue
EM36.8
50
Multi-hop ReasoningMuSiQue
Accuracy51
48
RetrievalMusique
F1 Score28.91
45
Multi-hop Question AnsweringMuSiQue
String Accuracy48.4
44
Knowledge-Intensive ReasoningMuSiQue
F1 Score34.8
43
Question AnsweringMuSiQue (held-out)
F1 Score57.7
42
Multi-hop ReasoningMuSiQue
EM53
41
Question AnsweringMuSiQue
EM38.7
38
Multi-hop Question AnsweringMuSiQue
F146.1
38
Text Question AnsweringMuSiQue
Accuracy69.6
37
Showing 25 of 245 rows
...