Question Answering

Benchmarks

Dataset Name	SOTA Method	Metric
ARC Challenge	GPT-4	Accuracy96.3	906	3mo ago
ARC Challenge	Frozen LLM graph	Accuracy (ARC)87.3	631	1mo ago
ARC Easy	Mistral Small 24B Inst 2501	Accuracy98.2	597	1mo ago
PIQA	Mashup Learning	Accuracy86.5	589	18d ago
ARC-E	Direct Fine-tuning	Accuracy95.23	544	1mo ago
OpenBookQA	LMSI	Accuracy94.4	465	4mo ago
ARC Easy	LFTF	Normalized Acc96.4	420	1mo ago
SQuAD v1.1 (dev)	Megatron-3.9B ensemble	F1 Score95.8	380	3mo ago
OBQA	Direct Fine-tuning	Accuracy94.95	347	1mo ago
OpenBookQA		Accuracy96.07	319	1mo ago
BoolQ	PaLM 2-L	Accuracy90.9	317	3mo ago
SciQ	MSSRfull	Accuracy97.2	283	3mo ago
ARC-C	DRAG	Accuracy94.1	283	1mo ago
2WIKI		EM86	260	17d ago
SQuAD v1.1 (test)	LUKE	F1 Score95.4	260	4mo ago
GPQA	UPA	Accuracy84.2	258	4mo ago
ARC Easy	IT-Prun	Accuracy90.48	246	18d ago
TriviaQA	RankCoT	Accuracy86.68	238	3mo ago
BoolQ	ShortGPT	Accuracy90.03	233	29d ago
ARC	Yi-34B + RTD	Accuracy94.6	230	4mo ago
Bamboogle	RAGShaper	EM60	227	26d ago
SQuAD 2.0	RoBERTa	F189.4	215	2mo ago
QA Suite Zero-shot (PIQA, ARC-E, ARC-C, BoolQ, HellaSwag, WinoGrande)	SDLLM	PIQA Accuracy82.48	199	1mo ago
PopQA	LogicGaze	Accuracy68.4	186	4mo ago
TriviaQA	PaLM 2-L	EM86.1	182	3mo ago

Showing 25 of 3047 rows

...